Обучение языковых моделей: как повысить качество рассуждений

Автор: Денис Аветисян


Новый подход сочетает в себе семантическое обучение и оптимизацию на уровне токенов для более эффективного использования больших языковых моделей.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Предлагаемый подход к обучению, обозначенный как SENT, структурирован вокруг двух взаимосвязанных компонентов: последовательного обучения с использованием семантической энтропии, направленного на постепенное усложнение задачи, и оптимизации, фокусирующейся на токенах с низкой энтропией, что позволяет эффективно управлять сложностью и повышать стабильность процесса обучения.
Предлагаемый подход к обучению, обозначенный как SENT, структурирован вокруг двух взаимосвязанных компонентов: последовательного обучения с использованием семантической энтропии, направленного на постепенное усложнение задачи, и оптимизации, фокусирующейся на токенах с низкой энтропией, что позволяет эффективно управлять сложностью и повышать стабильность процесса обучения.

Предложен фреймворк SENT, использующий семантическое обучение с адаптивным уровнем сложности и оптимизацию энтропии токенов для смягчения коллапса энтропии и повышения способностей к рассуждениям в больших языковых моделях.

Несмотря на успехи обучения с подкреплением для больших языковых моделей, сохранение достаточной исследовательской активности и предотвращение коллапса энтропии остается сложной задачей. В работе «Efficient Reinforcement Learning with Semantic and Token Entropy for LLM Reasoning» предложен эффективный фреймворк SENT, сочетающий в себе обучение по учебному плану на основе семантической энтропии и оптимизацию энтропии на уровне токенов. Такой подход позволяет смягчить коллапс энтропии и значительно улучшить способность моделей к рассуждениям. Способны ли подобные методы открыть новые горизонты в области обучения языковых моделей и их применения для решения сложных задач?


Энтропийный коллапс в обучении с подкреплением: ловушка предсказуемости

Современные стратегии обучения с подкреплением, демонстрирующие впечатляющую эффективность в различных задачах, подвержены явлению, известному как «коллапс энтропии». Данный процесс заключается в преждевременном сужении области поиска оптимальных решений, когда агент начинает чрезмерно полагаться на небольшое количество действий, кажущихся наиболее вероятными. В результате, способность к исследованию новых, потенциально более эффективных стратегий значительно снижается, что препятствует достижению истинного оптимального результата. Несмотря на первоначальную эффективность, подобное поведение приводит к застою и ограничивает возможности адаптации к меняющимся условиям среды, представляя собой серьезную проблему для долгосрочной производительности агента.

В современных системах обучения с подкреплением, склонность к выбору действий с высокой вероятностью, несмотря на кажущуюся эффективность, часто приводит к преждевременному сужению исследовательского пространства. Данное явление, известное как коллапс энтропии, ограничивает способность агента открывать действительно оптимальные стратегии. Вместо всестороннего изучения возможных вариантов, система сосредотачивается на наиболее предсказуемых действиях, упуская из виду потенциально более выгодные, но менее очевидные решения. Это приводит к ситуации, когда агент застревает в локальном оптимуме, неспособный выйти за рамки установленных шаблонов поведения и достичь максимальной производительности. Таким образом, чрезмерная уверенность в текущих решениях парадоксальным образом препятствует процессу обучения и снижает общую эффективность системы.

Явление «коллапса энтропии» в стратегиях обучения с подкреплением тесно связано с приоритетом так называемых «низкоэнтропийных токенов» — высокопредсказуемых элементов, которые на начальных этапах обучения демонстрируют эффективность. Однако, чрезмерная ориентация на эти легко прогнозируемые действия ограничивает способность агента исследовать более широкий спектр возможных стратегий. По сути, агент быстро «застревает» в локальном оптимуме, упуская из виду потенциально более выгодные решения, требующие более рискованных, но разнообразных действий. Этот процесс аналогичен ситуации, когда человек привыкает к проверенному пути, не желая искать новые, возможно, более короткие маршруты, даже если старый становится неэффективным. В результате, способность к адаптации и поиску действительно оптимальной стратегии существенно снижается, что и является сутью «коллапса энтропии».

Обучение моделей объёмом 1.5B и 77B показывает, что применение маски к токенам с низкой энтропией (обозначено как 'w/ Mask') способствует более стабильному обучению, о чём свидетельствует снижение стандартной ошибки.
Обучение моделей объёмом 1.5B и 77B показывает, что применение маски к токенам с низкой энтропией (обозначено как ‘w/ Mask’) способствует более стабильному обучению, о чём свидетельствует снижение стандартной ошибки.

Регуляризация как противоядие: обуздание энтропийного хаоса

Для борьбы с коллапсом энтропии в процессе обучения, нами введена регуляризация Kullback-Leibler (KL-регуляризация) как целенаправленное вмешательство. Данный метод предполагает введение штрафа за существенные отклонения обновлений политики от априорного распределения. KL-регуляризация позволяет ограничить изменения в политике, препятствуя чрезмерной оптимизации в узком пространстве действий и обеспечивая более стабильное и разнообразное поведение агента. Эффективность метода заключается в минимизации $D_{KL}(π||π_0)$, где $π$ — текущая политика, а $π_0$ — априорное распределение.

Метод регуляризации KL работает путем введения штрафа за обновления политики, которые значительно отклоняются от априорного распределения. Этот штраф предотвращает чрезмерную оптимизацию в ограниченном пространстве действий, поскольку резкие изменения в политике, направленные на максимальное использование небольшого подмножества действий, наказываются. Фактически, это ограничивает степень, в которой политика может «зациклиться» на небольшом количестве действий, стимулируя ее к исследованию более широкого спектра возможностей и поддержанию более равномерного распределения вероятностей по всему пространству действий. Величина штрафа контролируется коэффициентом, позволяющим настроить баланс между оптимизацией и стабильностью политики.

Ключевым аспектом применения KL-регуляризации является её способность напрямую воздействовать на влияние “токенов с низкой энтропией”. Регуляризация препятствует чрезмерной зависимости политики от предсказуемых результатов, выдаваемых этими токенами. Это достигается путем введения штрафа за отклонение от априорного распределения, что эффективно ограничивает вероятность выбора токенов с низкой энтропией и стимулирует исследование более разнообразных действий, даже если они изначально кажутся менее вероятными. Таким образом, KL-регуляризация предотвращает доминирование предсказуемых токенов и способствует более устойчивой и разнообразной политике.

Обучение моделей объемом 1.5-1.5B демонстрирует, что применение энтропии (w/ En) и маскирования токенов с низкой энтропией (w/ Mask) в методе GRPO обеспечивает стабильное улучшение производительности, о чем свидетельствует снижение стандартной ошибки.
Обучение моделей объемом 1.5-1.5B демонстрирует, что применение энтропии (w/ En) и маскирования токенов с низкой энтропией (w/ Mask) в методе GRPO обеспечивает стабильное улучшение производительности, о чем свидетельствует снижение стандартной ошибки.

Подтверждение эффективности: возрождение способности к исследованию

Эмпирические результаты показывают, что применение KL-регуляризации значительно снижает эффект «энтропийного коллапса» в различных сложных бенчмарках обучения с подкреплением. Этот эффект, характеризующийся резким снижением энтропии политики во время обучения, приводит к сужению пространства исследуемых действий и ухудшению обобщающей способности агента. В экспериментах, KL-регуляризация стабилизирует энтропию политики, предотвращая её падение к нулю и обеспечивая более эффективное исследование пространства состояний. Наблюдаемое смягчение энтропийного коллапса напрямую коррелирует с улучшением производительности агента в задачах обучения с подкреплением, демонстрируя важность регуляризации энтропии для стабильного и эффективного обучения.

Предложенный фреймворк SENT демонстрирует передовые результаты в задачах, достигая показателя ‘Pass@32’ в 68.57 балла. Этот результат на 3.26 балла превосходит показатели второго по эффективности метода, измеренные на модели размером 1.5 миллиарда параметров. Показатель ‘Pass@32’ отражает процент успешных прохождений задач при 32 попытках, что служит ключевой метрикой оценки эффективности фреймворка в сложных задачах обучения с подкреплением.

При оценке на наборе из 1818 задач, предложенный подход демонстрирует средний показатель $44.01$ (Avg@32). В отличие от базовых методов, склонных к коллапсу энтропии, наша система поддерживает стабильный уровень энтропии на протяжении всего процесса обучения. Это обеспечивает более надежное исследование пространства состояний и предотвращает преждевременную сходимость к субоптимальным решениям, что подтверждается стабильными результатами на различных бенчмарках.

При использовании модели Qwen3-14B был достигнут абсолютный показатель ‘Pass@16’ в 100%, что свидетельствует об оптимальной производительности системы. Набор тестов AIME2024/2025 также продемонстрировал значительное улучшение результатов по сравнению с предыдущими методами, подтверждая эффективность предложенного подхода в решении сложных задач и поддержании стабильной работы системы в различных сценариях.

Анализ распределения семантического энтропии показывает различия между обучающим набором данных и частотой энтропии токенов.
Анализ распределения семантического энтропии показывает различия между обучающим набором данных и частотой энтропии токенов.

Исследование, посвящённое оптимизации обучения больших языковых моделей посредством усиления с подкреплением, вызывает утомлённую иронию. Авторы предлагают SENT — очередную методику, призванную обуздать энтропию и улучшить рассуждения моделей. Однако, как показывает опыт, любая «революционная» структура обучения неизбежно превратится в технический долг. Попытки оптимизировать обучение на уровне токенов и семантики — это лишь усложнение, которое рано или поздно потребует ещё большей оптимизации. Как говорил Карл Фридрих Гаусс: «Если бы я знал, что умру, я бы хотел умереть, зная, что я уже нашел решение». Но, судя по всему, решение всегда где-то за горизонтом, а пока приходится иметь дело с новыми обёртками над старыми багами. Основная идея — смягчение коллапса энтропии — звучит неплохо, но всегда найдутся способы сломать даже самую элегантную теорию на практике.

Куда Ведёт Эта Дорога?

Предложенный фреймворк SENT, безусловно, элегантен в своей попытке обуздать энтропийный коллапс. Однако, стоит помнить: каждая «оптимизация» на уровне токенов — это ещё одна потенциальная точка отказа, ещё один слой абстракции, который рано или поздно потребует поддержки. В реальном мире, где требования к ресурсам растут экспоненциально, а данные поступают в непредсказуемом формате, сложно представить, что подобная тонкая настройка окажется устойчивой. Вполне вероятно, что «улучшение» рассуждений обернётся лишь незначительным повышением точности, не оправдывающим затраты на инфраструктуру.

Наиболее интересным представляется не столько сама оптимизация, сколько попытка построить «учебный план» для языковой модели. Но даже здесь возникает вопрос: что есть истинная «кривизна» задачи? Как оценить, что модель действительно «поняла» принцип, а не просто запомнила последовательность примеров? История полна примеров «умных» алгоритмов, которые с треском проваливались при столкновении с хоть сколько-нибудь нетривиальной ситуацией.

В конечном счёте, похоже, что решение проблем рассуждений сводится к вечной борьбе с энтропией, к попыткам заставить хаотичную систему выдавать предсказуемый результат. Иногда, на самом деле, лучше монолитный, хоть и неидеальный, алгоритм, чем сто микросервисов, каждый из которых по-своему врёт.


Оригинал статьи: https://arxiv.org/pdf/2512.04359.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-07 22:35