Надежные ответы в рекламе: как избежать «галлюцинаций» ИИ

Автор: Денис Аветисян

Новый подход, основанный на обучении с подкреплением и графовых базах знаний, позволяет повысить точность и достоверность систем ответов на вопросы о рекламных предложениях.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Улучшение извлечения знаний достигается за счет предварительной обработки фрагментов информации перед запросом, при этом GraphRAG и параллельный поиск демонстрируют повышенную эффективность извлечения по сравнению с базовым RAG, что выражается в процентном увеличении точности воспроизведения информации.

Предложена структура совместной адаптации GraphRAG и обучения с подкреплением для повышения надежности систем вопросно-ответного поиска в рекламной сфере и проверки валидности ссылок.

В условиях растущей сложности рекламных платформ, обеспечение достоверности ответов на вопросы пользователей становится критически важной задачей, поскольку галлюцинации, особенно в части ссылок, могут привести к финансовым потерям и юридическим рискам. В статье ‘Towards Faithful Industrial RAG: A Reinforced Co-adaptation Framework for Advertising QA’ представлен новый подход, основанный на совместной оптимизации поиска и генерации ответов с использованием графовых знаний и обучения с подкреплением. Предложенная схема, включающая компоненты GraphRAG и GRPO, позволяет значительно снизить частоту галлюцинаций и повысить точность, полноту и безопасность ответов, что подтверждено результатами онлайн A/B тестирования и многомесячной эксплуатацией в производственной среде. Сможет ли данная архитектура стать стандартом для надежных систем вопросно-ответного типа в индустрии рекламы?

Вызов Индустриального Поиска Ответов

В условиях динамично развивающейся индустрии онлайн-рекламы, традиционные системы вопросно-ответного типа сталкиваются с серьезными трудностями. Постоянно меняющиеся алгоритмы платформ, новые форматы объявлений и непрерывный поток данных о кампаниях создают среду, где устаревшие знания быстро теряют актуальность. Сложность заключается не только в объеме информации, но и в её изменчивости — системы, обученные на статичных данных, оказываются неспособны давать точные и релевантные ответы на вопросы, связанные с текущим состоянием рекламных кампаний. Это приводит к ошибкам в анализе, неэффективному управлению бюджетом и, как следствие, к снижению показателей рекламной эффективности, что особенно критично в высококонкурентной среде.

Ограниченный размер контекстного окна больших языковых моделей (LLM) представляет собой существенное препятствие при работе с обширными базами знаний, характерными для промышленных приложений. LLM, несмотря на свою впечатляющую способность к генерации текста, могут обрабатывать лишь фиксированный объем информации одновременно. Это означает, что при обращении к крупным корпоративным данным, содержащим тысячи документов, правил и спецификаций, модель вынуждена отбрасывать релевантную информацию, что неизбежно приводит к снижению точности и полноты ответов. В результате, способность LLM эффективно извлекать знания из обширных баз данных значительно ограничивается, что влияет на надежность и полезность системы в реальных промышленных сценариях, где требуется доступ к максимально полной и актуальной информации.

Одной из ключевых проблем при использовании больших языковых моделей в индустриальных задачах, таких как онлайн-реклама, является склонность к генерации неточной или вымышленной информации, в частности, к феномену “галлюцинаций URL”. Эта проблема существенно подрывает доверие пользователей и негативно влияет на эффективность рекламных кампаний. Предложенный подход демонстрирует впечатляющее снижение частоты галлюцинаций URL на 92.7% благодаря применению метода усиленного совместного обучения. Данная технология позволяет модели более точно соотносить запросы с релевантными источниками информации, минимизируя вероятность выдачи ложных или несуществующих ссылок и повышая надежность предоставляемых ответов.

Система успешно обработала запрос пользователя о правилах размещения мини-программ в финансово-кредитной сфере, предоставив структурированный ответ, основанный на нормативных требованиях и включающий квалификационные критерии, стандарты контента, требования к дизайну, запрещенные сценарии и рекомендации по разработке.

Расширение Возможностей RAG с Помощью GraphRAG

В основе GraphRAG лежит методология Retrieval-Augmented Generation (RAG), использующая внешние источники знаний для повышения точности и релевантности ответов больших языковых моделей (LLM). В отличие от стандартного RAG, GraphRAG расширяет эту концепцию, добавляя возможность явного моделирования связей между сущностями. Это достигается за счет использования графа знаний, который позволяет LLM не только извлекать информацию из документов, но и устанавливать логические связи между ними, улучшая тем самым способность к рассуждениям и более глубокому пониманию контекста.

GraphRAG использует граф знаний, размещенный в Elasticsearch, для явного моделирования связей между сущностями. Это позволяет системе не просто извлекать информацию из отдельных документов, но и осуществлять логические выводы, основанные на взаимосвязях между сущностями, даже если эти связи распределены по нескольким документам. В графе знаний каждая сущность представлена узлом, а отношения между ними — ребрами, что обеспечивает структурированное представление информации и возможность эффективного поиска связанных данных. Использование Elasticsearch в качестве хранилища графа знаний обеспечивает масштабируемость и высокую производительность при обработке запросов и поиске связей между сущностями.

Ограничения фиксированного размера контекстного окна в традиционных системах RAG преодолеваются за счет динамического извлечения релевантной информации на основе связей в графе знаний. Вместо обработки фиксированного набора документов, GraphRAG использует связи между сущностями, представленными в графе, для определения наиболее релевантных фрагментов информации. Это позволяет модели получать доступ к более широкому спектру знаний, выходящему за рамки изначально предоставленного контекста, и учитывать взаимосвязи между различными документами и сущностями. Таким образом, GraphRAG эффективно расширяет возможности модели, позволяя ей выполнять более сложные рассуждения и предоставлять более полные и точные ответы.

Система объединяет параллельные каналы извлечения информации - на основе графов знаний <span class="katex-eq" data-katex-display="false">K_{h}</span> и традиционного RAG с перефразировкой запроса и гибридным поиском BGE + BM25 - для формирования доказательной базы, которая затем используется RL-оптимизированным генератором, обеспечивающим высокую достоверность, стилистическое соответствие, безопасность и корректность URL-ссылок благодаря GRPO и многомерным наградам. — Система объединяет параллельные каналы извлечения информации — на основе графов знаний $K_{h}$ и традиционного RAG с перефразировкой запроса и гибридным поиском BGE + BM25 — для формирования доказательной базы, которая затем используется RL-оптимизированным генератором, обеспечивающим высокую достоверность, стилистическое соответствие, безопасность и корректность URL-ссылок благодаря GRPO и многомерным наградам.

Оптимизация Генерации с Использованием Обучения с Подкреплением

Для оптимизации возможностей генерации больших языковых моделей (LLM) в задачах промышленного QA используется обучение с подкреплением (Reinforcement Learning). Этот подход позволяет тонко настроить LLM, обучая модель на основе обратной связи, получаемой в процессе генерации ответов. Вместо традиционного обучения на заранее размеченных данных, обучение с подкреплением позволяет модели адаптироваться к специфическим требованиям и критериям оценки, характерным для промышленного применения, таким как точность, релевантность и безопасность генерируемых ответов. Такой метод позволяет значительно повысить качество и надежность LLM в контексте решения задач промышленного QA.

Для стабилизации процесса обучения и преодоления сложностей, связанных с зашумленными сигналами вознаграждения, мы используем алгоритм GRPO (Generalized Reward-based Policy Optimization). GRPO является робастным алгоритмом обучения с подкреплением, который эффективно справляется с неточным или изменчивым определением релевантности ответа. Это достигается за счет использования обобщенных оценок вознаграждения и механизмов стабилизации, позволяющих алгоритму более надежно сходиться к оптимальной политике генерации ответов, даже в условиях неидеальных данных обучения и сложных метрик оценки.

В основе оптимизации генерации ответов лежит многомерная функция вознаграждения, учитывающая несколько ключевых параметров. Она оценивает соответствие ответа представленным доказательствам (Evidence Faithfulness), соблюдение заданного стиля (Style Compliance), а также безопасность генерируемого контента. Кроме того, функция вознаграждения предусматривает штраф за галлюцинации URL — то есть, указание несуществующих веб-адресов. Внедрение данной функции привело к увеличению показателя положительных оценок (like-rate) на 28.6% и снижению количества отрицательных оценок (dislike-rate) на 46.2%.

В процессе обучения с подкреплением многомерные компоненты вознаграждения динамически изменяются, отражая процесс оптимизации агента.

Эффективная Адаптация и Масштабируемость

Для эффективной адаптации мощных языковых моделей, таких как DeepSeek-V3 и Qwen3-32B, к задачам промышленного поиска ответов на вопросы, используется комбинация методов LoRA и SFT. LoRA (Low-Rank Adaptation) позволяет обучать лишь небольшое количество дополнительных параметров, значительно сокращая вычислительные затраты и время, необходимое для настройки модели под конкретную задачу. В свою очередь, SFT (Supervised Fine-Tuning) обеспечивает более точную настройку модели на размеченном наборе данных, что повышает качество ответов и их релевантность. Благодаря такому подходу, возможно быстро и эффективно адаптировать передовые языковые модели к специфическим требованиям промышленных приложений, не требуя при этом огромных вычислительных ресурсов или больших объемов данных для обучения с нуля.

Для обеспечения высокой производительности и скорости обработки запросов в системе используется фреймворк vLLM. Данная технология позволяет существенно увеличить пропускную способность и минимизировать задержки при обслуживании крупных языковых моделей, таких как DeepSeek-V3 и Qwen3-32B. Оптимизации, реализованные в vLLM, включают в себя эффективное управление памятью, параллельную обработку запросов и оптимизированные алгоритмы декодирования, что позволяет системе оперативно отвечать на большое количество вопросов, поступающих в режиме реального времени, и поддерживать стабильную работу даже при пиковых нагрузках. Такой подход критически важен для развертывания системы в производственной среде и обеспечения высокого качества обслуживания пользователей.

Сочетание используемых методов позволяет быстро развернуть и масштабировать систему для обработки больших объемов запросов в производственной среде. В частности, применение модели Qwen3-32B с обучением с подкреплением значительно снижает склонность к галлюцинациям — с 0.0047 до 0.0013, что представляет собой снижение на 72%. Кроме того, наблюдается повышение показателя ROUGE-L для модели DeepSeek-V3.2 на 3.73 пункта (с 33.27 до 37.00) и улучшение точности на тестовом наборе FaithEval-Inconsistent до 84.60%. Эти результаты демонстрируют существенное повышение надежности и качества ответов системы при работе с большими объемами данных.

В отличие от традиционных методов QA, которые часто дают неполные, галлюцинирующие или избыточные ответы на один и тот же вопрос, наш подход обеспечивает точный, полный и лаконичный ответ, используя общую базу знаний.

Исследование, представленное в данной работе, стремится к повышению достоверности систем извлечения информации, что особенно важно для рекламных платформ. Авторы предлагают подход, сочетающий GraphRAG и обучение с подкреплением, для минимизации галлюцинаций и повышения надежности ответов. Этот акцент на строгой логике и доказуемости решения полностью соотносится с принципами, которые отстаивал Пол Эрдеш. Он как-то сказал: «Математика — это искусство не делать ошибок». В контексте данной статьи, это означает, что алгоритм должен не просто выдавать релевантные ответы, но и гарантировать их фактическую точность, избегая произвольных или необоснованных утверждений, что критически важно для поддержания доверия к рекламным системам.

Куда же дальше?

Представленная работа, безусловно, является шагом к снижению иллюзорности в системах поиска ответов, особенно в контексте рекламных платформ. Однако, не стоит обольщаться: если решение кажется магией — значит, инвариант не был раскрыт. Простая комбинация графовых представлений знаний и обучения с подкреплением не устраняет фундаментальную проблему: верификация источника информации. Проверка валидности URL — это лишь первый, и далеко не самый сложный, этап.

Более глубокое исследование необходимо направить на разработку метрик, действительно измеряющих «верность» ответа. Современные подходы часто сводятся к поверхностному сравнению с эталонными ответами, игнорируя нюансы контекста и возможные альтернативные интерпретации. Если система выдает «правильный» ответ, основанный на сфабрикованных данных, можно ли говорить об успехе?

Будущие исследования должны сосредоточиться на создании систем, способных не только извлекать информацию, но и оценивать её надёжность, выявлять противоречия и обосновывать свои выводы. Иначе, мы рискуем построить сложные механизмы, способные лишь элегантно распространять дезинформацию. И в этом, пожалуй, заключается истинный вызов.

Оригинал статьи: https://arxiv.org/pdf/2602.22584.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-28 05:17