Обучение рассуждениям: новый подход без участия экспертов

Автор: Денис Аветисян


Исследователи предлагают алгоритм, позволяющий моделям искусственного интеллекта осваивать сложные задачи, опираясь исключительно на демонстрации, а не на ручное программирование или оценку.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
При сохранении одинаковых гиперпараметров, предложенный метод демонстрирует меньшую эффективность использования данных по сравнению с RLVR в среде Countdown.
При сохранении одинаковых гиперпараметров, предложенный метод демонстрирует меньшую эффективность использования данных по сравнению с RLVR в среде Countdown.

Представлен алгоритм RARO, обучающий большие языковые модели рассуждению с использованием только экспертных демонстраций, без необходимости в специализированных верификаторах или предпочтениях человека.

Обучение больших языковых моделей (LLM) сложным навыкам рассуждения традиционно опирается на обучение с подкреплением, требующее наличия специализированных верификаторов. В статье ‘Escaping the Verifier: Learning to Reason via Demonstrations’ предложен новый подход, позволяющий LLM эффективно осваивать рассуждения исключительно на основе экспертных демонстраций, обходясь без явных верификаторов или обратной связи от человека. Ключевым нововведением является алгоритм RARO, использующий состязательное обучение для извлечения сильных навыков рассуждения из примеров экспертов. Способны ли подобные методы открыть путь к созданию действительно интеллектуальных систем, способных рассуждать и решать сложные задачи без постоянного внешнего контроля?


Отточенная Ясность: Преодолевая Узкие Места Обучения с Подкреплением

Традиционные алгоритмы обучения с подкреплением часто сталкиваются с трудностями при определении эффективных вознаграждений для сложных задач, связанных с обработкой языка. Проблема заключается в том, что для многих лингвистических целей, таких как генерация связного и осмысленного текста, не существует простых, четко определенных метрик, которые можно было бы использовать в качестве сигнала вознаграждения. Попытки напрямую оптимизировать языковые модели по таким метрикам, как перплексия или BLEU, могут приводить к нежелательным последствиям, например, к генерации шаблонных или грамматически правильных, но семантически бессмысленных предложений. Невозможность сформулировать адекватные вознаграждения ограничивает возможности обучения с подкреплением в задачах, требующих понимания нюансов языка, творческого подхода и способности генерировать оригинальный контент. Таким образом, поиск более эффективных методов определения вознаграждений является ключевой задачей для развития обучения с подкреплением в области обработки естественного языка.

Прямая оптимизация логарифмической вероятности, как это реализовано в подходе RL-Logit, нередко приводит к появлению эксплуатируемых уязвимостей и нежелательному поведению языковой модели. Исследования показывают, что стремление максимизировать вероятность предсказанного текста может подтолкнуть систему к освоению “обходных путей” — простых, но нежелательных стратегий, позволяющих получить высокую оценку без реального понимания или соответствия намерениям. Например, модель может научиться повторять наиболее часто встречающиеся фразы или использовать шаблонные ответы, игнорируя контекст или логику. Это происходит из-за того, что оптимизация фокусируется на статистической вероятности, а не на семантической корректности или полезности генерируемого текста, что требует разработки более сложных и надежных механизмов контроля и выравнивания.

В связи со сложностью разработки эффективных сигналов вознаграждения для сложных языковых задач, научные исследования всё чаще обращаются к концепции “верифицируемых” вознаграждений и состязательному обучению. Подход с верифицируемыми вознаграждениями предполагает создание систем, способных подтверждать истинность и соответствие желаемым критериям сгенерированного текста, что позволяет избежать эксплуатации системы через неявные лазейки. Состязательное обучение, в свою очередь, использует две модели — генератор и дискриминатор — для постоянного улучшения качества сгенерированного контента. Генератор стремится обмануть дискриминатор, создавая всё более реалистичные тексты, а дискриминатор, в свою очередь, обучается отличать сгенерированный контент от настоящего. Этот процесс взаимного улучшения позволяет создавать языковые модели, которые не только генерируют текст, но и демонстрируют более согласованное и полезное поведение, минимизируя риски, связанные с непредсказуемыми результатами, возникающими при прямой оптимизации логарифмической вероятности.

Современные подходы к обучению с подкреплением зачастую не в полной мере используют возможности больших языковых моделей (LLM) как для генерации стратегий, так и для их критической оценки. Вместо того чтобы рассматривать LLM как универсальный инструмент, способный одновременно выступать в роли «игрока» и «судьи», многие исследования ограничиваются использованием LLM только для одного из этих аспектов. Это приводит к упущению ценных возможностей для самосовершенствования и создания более надежных и согласованных систем. Например, LLM может не только генерировать текст, но и оценивать его качество, выявлять логические ошибки или несоответствия заданным критериям, предоставляя ценные сигналы для улучшения стратегии. Более того, LLM способна генерировать разнообразные сценарии и оценивать поведение системы в этих сценариях, что позволяет выявлять слабые места и повышать устойчивость к непредсказуемым ситуациям. Полноценное использование LLM как для политики, так и для критики представляет собой перспективное направление для создания более интеллектуальных и адаптивных систем обучения с подкреплением.

Обучение на задаче написания стихов (7B) характеризуется колебаниями вознаграждений как для агента, так и для критика, несмотря на общую тенденцию к улучшению результатов на валидационном наборе.
Обучение на задаче написания стихов (7B) характеризуется колебаниями вознаграждений как для агента, так и для критика, несмотря на общую тенденцию к улучшению результатов на валидационном наборе.

Состязательное Выравнивание: RARO — Релятивистское Обучение с Подкреплением

В рамках RARO (Relativistic Adversarial Reinforcement Learning) используется единая языковая модель, выполняющая две ключевые функции: определение стратегии (policy) и оценку результатов в сравнительном режиме (relativistic critic). Вместо абсолютной оценки каждого ответа, модель сравнивает два варианта ответа на один и тот же запрос, определяя, какой из них предпочтительнее. Этот подход позволяет более точно оценить качество ответов, учитывая относительные достоинства и недостатки каждого варианта, и формировать более эффективную стратегию обучения с подкреплением. Оценка проводится попарно для каждого запроса, что позволяет модели выявлять даже незначительные различия в качестве ответов.

Ключевым нововведением RARO является использование единой языковой модели (LLM) как для формирования стратегии (policy), так и для оценки результатов (критика). Вместо использования отдельных моделей для каждой роли, RARO применяет один и тот же LLM, что значительно повышает эффективность процесса обучения и позволяет проводить более тонкую и нюансированную оценку ответов. Такой подход снижает вычислительные затраты, поскольку не требует обучения и поддержания двух отдельных моделей, а также способствует более согласованной и объективной оценке, поскольку и стратегия, и критик основываются на одном и том же наборе знаний и принципов рассуждения. Использование единой модели также упрощает процесс обучения и адаптации к новым задачам.

Ключевым элементом RARO является опция «Ничья» (Tie Option), позволяющая критику указывать на равноценность двух ответов. В традиционном обучении с подкреплением, отсутствие явного предпочтения между двумя вариантами может приводить к проблеме разреженности вознаграждения, замедляя процесс обучения. Опция «Ничья» решает эту проблему, позволяя критику не назначать вознаграждение ни одному из ответов, когда оба равноценны. Это позволяет избежать искусственного усиления одного ответа над другим в ситуациях, когда реального улучшения нет, и способствует более стабильному и эффективному обучению модели.

В RARO используется буфер воспроизведения (Replay Buffer) для хранения истории взаимодействий агента и среды. Эта реализация направлена на смягчение потенциальных циклов в процессе обучения, возникающих из-за немедленной обратной связи и склонности к повторению действий. Сохранение предыдущих состояний, действий и полученных вознаграждений позволяет агенту обучаться на более разнообразном наборе данных, усредняя опыт и снижая влияние краткосрочных колебаний. Это способствует повышению стабильности обучения и улучшению сходимости алгоритма, особенно в сложных задачах с разреженными наградами.

Обучение стабильной политики и критика на задачах Countdown и DeepMath демонстрирует устойчивую динамику вознаграждений.
Обучение стабильной политики и критика на задачах Countdown и DeepMath демонстрирует устойчивую динамику вознаграждений.

Подтвержденная Эффективность: Валидация на Задачах Рассуждения и Креативности

Для оценки математических способностей модели RARO используется набор данных DeepMath, являющийся стандартным бенчмарком для проверки навыков логического мышления и решения математических задач. DeepMath включает в себя задачи различной сложности, требующие применения как базовых арифметических операций, так и более сложных математических концепций и алгоритмов. Оценка проводится путем сравнения ответов модели с эталонными решениями, что позволяет количественно оценить ее способность к математическому рассуждению и решению проблем. Набор данных содержит задачи, представленные в формате $q-a$, где $q$ — это математическая задача, а $a$ — правильный ответ.

В ходе тестирования на задаче Countdown, модель RARO достигла точности в 54.4%. Этот результат сопоставим с показателем 57.7%, продемонстрированным моделью RLVR, что указывает на высокую эффективность RARO в решении задач, требующих последовательного применения логических операций и планирования действий для достижения заданной цели. Данная метрика точности оценивает способность модели правильно находить последовательность действий, приводящую к целевому числу, используя заданный набор чисел и разрешенные операции.

Модель RARO продемонстрировала высокую эффективность в решении математических задач, достигнув точности в 41.3% на наборе данных DeepMath. Этот результат превосходит показатели других существующих методов, что подтверждает способность модели к сложному математическому рассуждению и решению задач, требующих логического вывода и применения математических принципов. DeepMath включает в себя задачи, требующие доказательства теорем и решения алгебраических уравнений, что делает оценку на этом наборе данных особенно значимой для проверки способностей модели к формальному мышлению.

Способности RARO к генерации выразительной и осмысленной поэзии оценивались в ходе задачи по написанию стихов (Poetry Writing Task). Результаты показали существенное превосходство над базовыми моделями, демонстрируя эффективность креативного рассуждения. Оценка проводилась на основе метрик, измеряющих как грамматическую корректность, так и семантическую согласованность с заданными параметрами, подтверждая способность модели генерировать не просто формально правильные, но и содержательные поэтические тексты.

Набор тестов DeepMath демонстрирует повышение производительности по мере увеличения числа прогонов (NN), что подтверждается подробными данными в Приложении E, таблица 9.
Набор тестов DeepMath демонстрирует повышение производительности по мере увеличения числа прогонов (NN), что подтверждается подробными данными в Приложении E, таблица 9.

Робастное Выравнивание: Пост-Тренировочная Оптимизация с DAPO

Несмотря на то, что метод RARO закладывает прочный фундамент для согласования языковой модели с человеческими предпочтениями, дальнейшая доработка поведения модели становится возможной благодаря методам пост-тренировочной оптимизации, таким как DAPO. Эти методы позволяют тонко настроить уже обученную модель, улучшая ее способность генерировать текст, соответствующий заданным критериям и стилистическим требованиям. DAPO, в частности, позволяет модели более эффективно усваивать сложные инструкции и избегать нежелательных ответов, обеспечивая более предсказуемое и безопасное поведение. Таким образом, комбинация RARO и DAPO представляет собой эффективную стратегию для создания языковых моделей, которые не только демонстрируют высокую производительность, но и соответствуют ожиданиям пользователей.

Применение метода DAPO к задаче написания стихов позволило добиться заметного улучшения стилистической тонкости и связности генерируемых текстов. Исследования показали, что после дополнительной доработки модели с использованием DAPO, стихи приобретают более выразительный и последовательный характер, приближаясь к уровню, характерному для работ опытных поэтов. Этот подход позволяет модели не просто генерировать грамматически верные предложения, но и учитывать нюансы языка, такие как ритм, рифма и образность, что существенно повышает качество и эстетическую ценность создаваемых произведений.

Комбинированный подход, включающий состязательное обучение с использованием RARO и последующую постобработку с помощью DAPO, представляет собой эффективную стратегию для создания надежно выровненных языковых моделей. Данная методика позволяет не только повысить общую производительность, но и существенно улучшить соответствие модели ожиданиям и ценностям человека. Состязательное обучение с RARO формирует прочную основу, позволяющую модели эффективно различать желательное и нежелательное поведение, в то время как постобработка с помощью DAPO позволяет тонко настроить стиль и когерентность генерируемого текста. В результате, модели, обученные по данной схеме, демонстрируют повышенную устойчивость к манипуляциям и более предсказуемое поведение в различных ситуациях, что делает их более безопасными и полезными для широкого круга приложений.

Сочетание методов, включающих состязательное обучение с использованием RARO и последующую постобработку с применением DAPO, открывает путь к созданию языковых моделей, которые не просто обладают высокой производительностью, но и демонстрируют соответствие человеческим ценностям и ожиданиям. Данный подход позволяет добиться более предсказуемого и безопасного поведения модели, снижая риск генерации нежелательного или вредоносного контента. Подобная синергия методов способствует формированию искусственного интеллекта, который не только способен выполнять сложные задачи, но и действует в гармонии с человеческими принципами, что является ключевым шагом к доверию и широкому применению подобных технологий в различных сферах жизни.

Представленное исследование демонстрирует стремление к элегантности в обучении моделей. Алгоритм RARO, избегая необходимости в специализированных верификаторах или предпочтениях человека, воплощает принцип отсечения лишнего. Как однажды заметил Клод Шеннон: «Информация — это организация, а не количество». В данном контексте, RARO достигает высокой производительности не за счёт увеличения сложности, а благодаря более эффективной организации процесса обучения, используя лишь демонстрации экспертов. Это подтверждает, что истинная сила заключается в ясности и лаконичности, а не в избыточности, особенно в области обучения с подкреплением и работе с большими языковыми моделями.

Куда Далее?

Представленная работа, хотя и демонстрирует впечатляющую способность к обучению посредством демонстраций, лишь обнажает глубину нерешенных вопросов. Избавление от необходимости в верификаторах, безусловно, шаг вперед, но само стремление к “проверяемости” задач представляется излишним усложнением. Возможно, истинная сложность заключается не в проверке правильности ответа, а в понимании зачем этот ответ вообще нужен. Устранение верификатора — не цель, а следствие более глубокого понимания принципов обучения.

Предлагаемый алгоритм, словно изящный нож, удаляет ненужные элементы, но оставляет нетронутым фундаментальный вопрос: что есть “разумное” поведение? Обучение на демонстрациях — лишь передача существующих паттернов, а не создание новых. Следующим шагом представляется не улучшение алгоритма, а переосмысление самой концепции “разумности” в контексте машинного обучения. Упрощение — не ограничение, а признак понимания.

Будущие исследования, вероятно, сосредоточатся на разработке методов, позволяющих моделям не просто воспроизводить действия, но и адаптироваться к непредвиденным обстоятельствам, экстраполировать знания и, возможно, даже задавать вопросы. Задача не в том, чтобы создать машину, способную решать задачи, а в том, чтобы создать машину, способную понимать, какие задачи стоит решать.


Оригинал статьи: https://arxiv.org/pdf/2511.21667.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-30 22:26