Раскрывая потенциал рассуждений: новый подход к обучению больших языковых моделей

Автор: Денис Аветисян

Исследователи разработали метод, позволяющий эффективно использовать ранее игнорируемые подсказки для обучения больших языковых моделей, значительно повышая их способность к логическому мышлению.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

В разработанной структуре Miner используется внутренняя система вознаграждений, основанная на неопределенности последовательности, вычисляемой по старой политике <span class="katex-eq" data-katex-display="false">\pi_{\rm old}</span>, для усиления корректных, но неуверенных траекторий, избегая переобучения на освоенных последовательностях, а также точечное вознаграждение критически важных токенов с одновременным исключением самоуверенных, при этом калибровка оценок преимущества к заданному порогу значительно повышает эффективность обучения без нарушения нормального прогресса. — В разработанной структуре Miner используется внутренняя система вознаграждений, основанная на неопределенности последовательности, вычисляемой по старой политике $\pi_{\rm old}$ , для усиления корректных, но неуверенных траекторий, избегая переобучения на освоенных последовательностях, а также точечное вознаграждение критически важных токенов с одновременным исключением самоуверенных, при этом калибровка оценок преимущества к заданному порогу значительно повышает эффективность обучения без нарушения нормального прогресса.

Предложенная система Miner использует неопределенность как сигнал для обучения с подкреплением, повышая эффективность использования данных и улучшая рассуждения в больших языковых моделях.

Несмотря на успехи обучения с подкреплением для больших языковых моделей, существующие методы часто неэффективно используют однородные положительные примеры, приводя к потере ценных данных. В работе «Miner:Mining Intrinsic Mastery for Data-Efficient RL in Large Reasoning Models» предложен новый подход, использующий внутреннюю неопределенность модели в качестве сигнала вознаграждения, позволяя эффективно обучаться даже на таких примерах. Внедряя механизм фокусированного назначения вознаграждений и адаптивную калибровку преимущества, Miner демонстрирует превосходные результаты по сравнению с современными алгоритмами на различных задачах рассуждений. Способно ли дальнейшее исследование внутренней неопределенности открыть новые горизонты в масштабируемом обучении больших языковых моделей?

Преодоление Хрупкости: Вызов для Языковых Моделей

Несмотря на впечатляющий масштаб и количество параметров, современные большие языковые модели часто демонстрируют неустойчивость в решении сложных задач, требующих логического мышления. Это проявляется в их хрупкости — незначительные изменения в формулировке вопроса или входных данных могут приводить к совершенно неверным ответам. Обобщающая способность таких моделей также ограничена: знания, полученные при решении одного типа задач, плохо переносятся на новые, даже схожие, ситуации. Таким образом, впечатляющий прогресс в генерации текста не всегда коррелирует с настоящим пониманием и способностью к надежному логическому выводу, что представляет собой значительный вызов для дальнейшего развития искусственного интеллекта.

Традиционные методы обучения с подкреплением, применяемые к задачам рассуждения, часто сталкиваются с серьезными трудностями. Для эффективной работы им требуется огромный объем размеченных данных, что делает их неприменимыми в ситуациях с ограниченными ресурсами. Более того, возникает проблема атрибуции заслуг — определение, какие именно шаги в цепочке рассуждений привели к успеху или неудаче. В сложных логических конструкциях, где множество промежуточных выводов влияют на конечный результат, становится сложно точно оценить вклад каждого отдельного шага, что существенно затрудняет процесс обучения и оптимизации модели. Эта проблема особенно актуальна для длинных и разветвленных цепочек рассуждений, где влияние каждого шага может быть неявным и трудно обнаруживаемым.

Введение внутренних наград в алгоритм GRPO позволяет снизить количество бесполезных прогонов и достичь сопоставимой или даже более высокой производительности (до 23% на Qwen3-4B-Base) за счет уменьшения вычислительных затрат вдвое.

Miner: Эффективное Обучение с Подкреплением на Основе Неопределенности

Miner представляет собой новый вариант обучения с подкреплением на основе обратной связи от человека (RLHF), относящийся к классу RLVR (Reinforcement Learning from Human Preferences). Отличительной особенностью Miner является использование внутренних вознаграждений, основанных на оценке неопределенности модели в процессе рассуждений. Вместо полной зависимости от внешних оценок, Miner использует эту внутреннюю оценку уверенности для направления обучения, что позволяет снизить потребность в больших объемах размеченных данных, предоставляемых человеком, и повысить эффективность обучения.

В основе Miner лежит использование положительно-однородных (PH) запросов для создания цикла самообучения, позволяющего модели самостоятельно генерировать данные для тренировки. Ключевым элементом является применение “вознаграждений, основанных на неопределенности”, которые количественно оценивают уверенность модели на каждом этапе рассуждений. Эти вознаграждения вычисляются на основе вероятностных оценок, выдаваемых моделью, таким образом, этапы, где модель проявляет наибольшую неуверенность (низкая вероятность предсказанного токена), получают более высокие внутренние вознаграждения. Это стимулирует модель исследовать альтернативные пути рассуждений и улучшать свою уверенность в ответах, снижая зависимость от внешних оценок и повышая эффективность обучения.

Для эффективной передачи внутрисистемных сигналов вознаграждения, Miner использует два ключевых компонента. Адаптивная калибровка преимущества (Adaptive Advantage Calibration) динамически масштабирует вознаграждения, регулируя их интенсивность в процессе обучения для предотвращения насыщения или затухания градиентов. Токено-уровневое фокусное назначение кредита (Token-Level Focal Credit Assignment) концентрирует градиенты на наиболее значимых токенах в последовательности, определяя их важность для процесса рассуждений и усиливая обучение на критических элементах. Данный подход позволяет более эффективно использовать внутрисистемные сигналы вознаграждения и улучшить качество обучения модели.

Эксперименты с различными улучшениями (внутреннее вознаграждение, взвешивание по фокусу и калибровка преимущества) демонстрируют, что Minera, построенная на базе Qwen3-4B, обеспечивает значимые и стабильные улучшения в производительности, превосходя другие алгоритмы более чем на 5 баллов при параллельном увеличении вычислительных ресурсов, что подтверждается стандартным отклонением в <span class="katex-eq" data-katex-display="false"> \pm 1 </span> по 10 запускам. — Эксперименты с различными улучшениями (внутреннее вознаграждение, взвешивание по фокусу и калибровка преимущества) демонстрируют, что Minera, построенная на базе Qwen3-4B, обеспечивает значимые и стабильные улучшения в производительности, превосходя другие алгоритмы более чем на 5 баллов при параллельном увеличении вычислительных ресурсов, что подтверждается стандартным отклонением в $\pm 1$ по 10 запускам.

Количественная Оценка Неопределенности и Её Роль в Обучении

В Miner, оценка неопределенности осуществляется посредством метрики отрицательного логарифмического правдоподобия (Negative Log-Likelihood, NLL). Более высокие значения NLL указывают на большую неопределенность модели при прогнозировании, что интерпретируется как более сильный сигнал внутреннего вознаграждения. Этот сигнал стимулирует модель к исследованию и обучению в областях, где ее уверенность в ответе низка. Таким образом, NLL служит ключевым показателем для направления процесса обучения и повышения надежности рассуждений модели. $NLL = - \log P(y|x)$ , где $P(y|x)$ — вероятность правильного ответа $y$ при заданном входе $x$ .

Для оценки стабильности процесса обучения Miner используются метрики, такие как расхождение Кулбака-Лейблера (KL Divergence) и энтропия. KL Divergence позволяет измерить разницу между распределением вероятностей, предсказываемым моделью, и целевым распределением, что указывает на степень уверенности модели в своих предсказаниях. Высокие значения KL Divergence могут свидетельствовать о нестабильности обучения или о чрезмерной уверенности в неверных ответах. Энтропия, в свою очередь, измеряет неопределенность или случайность в распределении вероятностей. Анализ этих метрик позволяет убедиться, что генерируемые внутренние вознаграждения (intrinsic rewards) эффективно направляют модель к последовательному и надежному рассуждению, предотвращая расхождение от оптимальной стратегии обучения и обеспечивая стабильность процесса.

Оценка эффективности Miner проводилась с использованием метрики Pass@K, которая измеряет долю успешно решенных задач из K попыток. Результаты показали абсолютное улучшение на +4.58 пункта по метрике Pass@1 и +4.23 пункта по метрике Pass@K по сравнению с базовой моделью Qwen3-4B. Это указывает на значительное повышение способности Miner к решению задач, особенно при увеличении числа предоставляемых попыток, и подтверждает эффективность предложенного подхода к обучению с внутренним вознаграждением.

Алгоритмы Miner и GRPO, построенные на базе Qwen3-4B, демонстрируют быструю конвергенцию от фазы исследования (с нарастающей энтропией) к фазе эксплуатации, что подтверждается снижением энтропии и улучшением результатов на контрольных задачах (см. рис. 8).

Масштабируемость Miner: Производительность при Разных Размерах Моделей

Для оценки масштабируемости и адаптивности Miner была проведена реализация с использованием моделей ‘Qwen3-4B-Base’ в качестве меньшей и ‘Qwen3-8B-Base’ — в качестве более крупной. Такой подход позволил исследователям проанализировать, как предложенный метод функционирует при различных вычислительных мощностях и размерах моделей. Результаты показали, что Miner демонстрирует стабильную эффективность вне зависимости от размера используемой базовой модели, что указывает на его потенциал для широкого применения в задачах, требующих развития навыков рассуждения.

Исследования показали, что применение Miner стабильно повышает качество логического мышления моделей, независимо от их размера. В частности, при использовании модели Qwen3-8B наблюдается улучшение на 2.37 абсолютных пунктов по метрике Pass@1 и на 6.66 абсолютных пунктов по метрике Pass@K. Данные результаты демонстрируют, что Miner эффективно повышает способность модели правильно отвечать на вопросы, требующие логических рассуждений, и сохраняет свою эффективность при масштабировании модели.

Исследования показали, что разработанный алгоритм Miner демонстрирует значительное повышение эффективности по сравнению с базовым уровнем DAPO. В частности, наблюдается улучшение на 2.48 абсолютных пункта по показателю Pass@1 и на 2.14 абсолютных пункта по показателю Pass@K. Эти результаты свидетельствуют о том, что Miner способен более эффективно решать задачи рассуждения, обеспечивая более точные и надежные ответы, и подтверждают его потенциал в качестве оптимизированного подхода к повышению производительности языковых моделей.

Модель Miner продолжает демонстрировать улучшения в метрике Pass@K при достаточно большом значении K как для Qwen3-4B, так и для Qwen3-8B, что указывает на её способность эффективно ранжировать результаты.

Исследование, представленное в данной работе, стремится к оптимизации процесса обучения больших языковых моделей посредством использования внутренних механизмов мотивации. Авторы предлагают систему, преобразующую неопределенность в управляемый сигнал обучения, что позволяет эффективно использовать ранее отбрасываемые данные. Это согласуется с высказыванием Джона Маккарти: «Всякий, кто не может признать свои ошибки, никогда не сможет их исправить». Подобно тому, как система Miner использует сигналы неопределенности для улучшения процесса обучения, так и способность признавать ошибки является ключевым элементом прогресса. Внедрение uncertainty-driven rewards демонстрирует стремление к созданию более эффективных и надежных систем, где каждый этап обучения направлен на минимизацию ошибок и максимизацию полезного сигнала.

Что дальше?

Представленная работа, хоть и демонстрирует эффективность преобразования неопределенности в управляемый сигнал обучения, не решает фундаментальную проблему: потребность больших языковых моделей в огромных объемах данных. Улучшение эффективности — лишь смягчение симптома, а не излечение болезни. Следующим шагом представляется не просто оптимизация существующих алгоритмов, а поиск принципиально новых парадигм обучения, способных к накоплению знаний, а не просто к их запоминанию. Следует задаться вопросом: действительно ли «интеллект» сводится к способности эффективно использовать статистические закономерности, или же существует нечто большее?

Особое внимание следует уделить исследованию внутренней репрезентации знаний языковой моделью. Способность к логическому выводу, как демонстрируется в работе, остается хрупкой и зависимой от конкретной формулировки задачи. Устойчивость и обобщающая способность требуют более глубокого понимания того, как знания структурируются и организуются внутри модели. Простота — вот критерий истинного прогресса. Если система не может объяснить свой вывод в одном предложении, значит, она сама его не понимает.

Наконец, необходимо признать, что сама постановка задачи — максимизация награды — может быть упрощением. Истинное обучение — это не просто достижение цели, но и понимание причин и следствий, предвидение последствий своих действий. Возможно, ключ к созданию действительно интеллектуальных систем лежит в исследовании механизмов саморегуляции и внутренней мотивации, а не только в оптимизации внешних сигналов.

Оригинал статьи: https://arxiv.org/pdf/2601.04731.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-10 14:36