Учим машины мыслить аналогиями: новый подход к решению сложных задач

Автор: Денис Аветисян

Исследователи разработали инновационный метод обучения больших языковых моделей, позволяющий им использовать опыт решения похожих задач для повышения точности и эффективности.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

В рамках предложенной схемы RA-RFT, модель-судья оценивает пары «запрос-корпус», формируя бинарные метки, отражающие релевантность рассуждений, после чего, используя эти метки, происходит обучение плотного извлекателя посредством контрастного обучения, а полученные аналогичные рассуждения используются для усиления процесса тонкой настройки с подкреплением.

Предложена методика Retrieval-Augmented Reinforcement Fine-Tuning (RA-RFT) для улучшения математического рассуждения больших языковых моделей с использованием аналогов решенных задач.

Несмотря на успехи генеративных моделей, обеспечение надежного логического вывода остается сложной задачей. В работе, озаглавленной ‘Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning’, предложен новый подход, использующий извлечение аналогичных решенных задач для улучшения способности больших языковых моделей к математическому рассуждению. Ключевая идея заключается в обучении модели не просто находить семантически близкие примеры, а извлекать те, которые предлагают полезные стратегии решения, основанные на аналогиях. Может ли подобный подход, использующий обучение с подкреплением и извлечение по аналогии, стать ключевым фактором в создании действительно разумных искусственных систем?

Пределы масштаба: За гранью поверхностных закономерностей

Несмотря на впечатляющие успехи в распознавании закономерностей, современные большие языковые модели сталкиваются с трудностями при выполнении задач, требующих истинного рассуждения — способности применять полученные знания к принципиально новым ситуациям. Модели превосходно выявляют статистические связи и воспроизводят наблюдаемые паттерны в данных, однако их возможности ограничены, когда требуется не просто повторить увиденное, а сделать логический вывод или сформулировать решение, опираясь на более глубокое понимание принципов. Это связано с тем, что обучение происходит преимущественно на основе анализа огромных объемов текста и выявления корреляций, а не на формировании абстрактных представлений о мире и причинно-следственных связях.

Традиционные подходы к решению задач часто оказываются неэффективными при столкновении со сложными, многоступенчатыми проблемами, требующими глубокого логического вывода, а не просто распознавания поверхностных сходств. Эти системы, как правило, полагаются на сопоставление с ранее изученными образцами, что делает их уязвимыми при незначительных отклонениях от знакомого контекста. Вместо того, чтобы анализировать суть проблемы и выстраивать последовательность логических шагов, они склонны к упрощенным решениям, основанным на неполной или искаженной информации. Поэтому, когда требуется экстраполировать знания на принципиально новые ситуации или провести глубокий анализ взаимосвязей, традиционные методы демонстрируют ограниченность, уступая место потребностям в более сложных и адаптивных системах искусственного интеллекта.

Метод RA-RFT мотивирован тем, что для успешного обучения RLVR критически важно извлекать примеры, аналогичные по стратегии решения (<span class="katex-eq" data-katex-display="false">\mathbf{E}_{2}</span>), а не только поверхностно похожие (<span class="katex-eq" data-katex-display="false">\mathbf{E}_{1}</span>), поскольку это обеспечивает получение полезных сигналов вознаграждения и улучшает качество прокрутки для эффективного обучения политики. — Метод RA-RFT мотивирован тем, что для успешного обучения RLVR критически важно извлекать примеры, аналогичные по стратегии решения ( $\mathbf{E}_{2}$ ), а не только поверхностно похожие ( $\mathbf{E}_{1}$ ), поскольку это обеспечивает получение полезных сигналов вознаграждения и улучшает качество прокрутки для эффективного обучения политики.

RA-RFT: Архитектура, осознающая процесс рассуждений

Метод обучения с подкреплением и расширенным извлечением (RA-RFT) улучшает способность модели к рассуждениям за счет поиска релевантных цепочек рассуждений — пошаговых решений — в базе знаний. В процессе RA-RFT, при поступлении запроса, система извлекает наиболее подходящие примеры решения аналогичных задач из базы данных, представляющих собой последовательность промежуточных шагов и окончательный ответ. Эти извлеченные цепочки рассуждений затем используются как дополнительный контекст для модели во время процесса обучения с подкреплением, направляя ее к генерации более корректных и обоснованных ответов. Это отличается от прямого обучения на конечных ответах, позволяя модели учиться не только чему нужно ответить, но и как правильно мыслить.

RA-RFT объединяет преимущества методов Retrieval-Augmented Generation (RAG) и обучения с подкреплением на основе проверяемых вознаграждений (RLVR) для оптимизации точности конечного результата. RAG обеспечивает извлечение релевантной информации из внешней базы знаний, которая используется для улучшения генерации ответов. RLVR, в свою очередь, использует проверяемые вознаграждения, основанные на правильности решения, для обучения модели и повышения вероятности генерации корректных ответов. Комбинирование этих подходов позволяет RA-RFT не только предоставлять контекстно-обогащенные ответы, но и активно стремиться к достижению корректного результата, что повышает общую надежность и точность системы.

В качестве базовых моделей для RA-RFT используются языковые модели Qwen3 с количеством параметров 1.7 миллиарда и 4 миллиарда. Эти модели демонстрируют высокую производительность и служат отправной точкой для дальнейшей оптимизации посредством пост-тренировки, включающей в себя извлечение релевантных цепочек рассуждений и обучение с подкреплением на основе проверяемых вознаграждений. Использование Qwen3 позволяет получить существенное улучшение качества решения задач за счет адаптации предобученной модели к специфике требуемого уровня аргументации.

Сравнение производительности моделей Qwen3 на различных математических бенчмарках показывает, что наша методика обеспечивает лучшие результаты по сравнению с другими подходами, демонстрируя точность, измеренную как среднее значение по <span class="katex-eq" data-katex-display="false"> ext{AIME24, AIME25, HMMT25}</span> и всем доступным тестам. — Сравнение производительности моделей Qwen3 на различных математических бенчмарках показывает, что наша методика обеспечивает лучшие результаты по сравнению с другими подходами, демонстрируя точность, измеренную как среднее значение по $ext{AIME24, AIME25, HMMT25}$ и всем доступным тестам.

Обучение извлекателя, ориентированного на рассуждения

Обучение плотного извлекателя (retriever) осуществляется с использованием контрастного обучения для выявления структурно аналогичных задач. При этом приоритет отдается трассам (traces), демонстрирующим полезность в процессе рассуждений. Контрастное обучение позволяет модели различать релевантные и нерелевантные примеры, максимизируя сходство между запросом и трассами, содержащими логические шаги, необходимые для решения аналогичных проблем. В процессе обучения модель настраивается таким образом, чтобы ранжировать трассы на основе их структурной близости к текущей задаче, что способствует более эффективному извлечению примеров, содержащих полезную информацию для рассуждений.

Процесс обучения модели поиска с учетом рассуждений (Reasoning-Aware Retriever Training) основан на модели Reason-ModernColBERT, которая подвергается тонкой настройке для эффективного сопоставления запросов с релевантными цепочками рассуждений. В ходе тонкой настройки, модель оптимизируется для определения семантической близости между входным запросом и различными примерами рассуждений, что позволяет ей ранжировать цепочки рассуждений по степени их релевантности к текущей задаче. Это достигается за счет использования контрастивного обучения, которое нацелено на максимизацию сходства между запросом и соответствующими цепочками рассуждений, и минимизацию сходства с нерелевантными примерами.

Обучение извлекателя (retriever) направлено на идентификацию и ранжирование следов рассуждений (reasoning traces) на основе их семантической близости к текущей проблеме. Это достигается посредством вычисления степени соответствия между представлением запроса и представлениями доступных следов, что позволяет извлекателю выдавать наиболее релевантные примеры в порядке убывания их соответствия. Ранжирование основано на оценке сходства векторов, полученных посредством модели Reason-ModernColBERT, что обеспечивает эффективный поиск примеров, которые могут быть полезны для решения текущей задачи за счет использования аналогичных стратегий рассуждений.

Дистилляция релевантности рассуждений с использованием эталонных данных

Процесс Gold-Relevance Distillation использует модель-судью — GPT-4o — для оценки качества извлеченных цепочек рассуждений и формирования контрольных данных для обучения. GPT-4o оценивает каждую цепочку на предмет релевантности и качества рассуждений, определяя, насколько она подходит для использования в качестве обучающего примера. Результаты оценки используются для создания набора данных, который служит для обучения модели выбору наиболее полезных и точных примеров рассуждений, что позволяет повысить эффективность извлечения информации и улучшить общую производительность модели в задачах, требующих логического мышления.

Процесс отбора примеров обоснований, демонстрирующих переносимые шаблоны рассуждений, является ключевым для повышения надежности извлекаемых данных. Приоритезация следов рассуждений, содержащих обобщенные и применимые логические структуры, позволяет исключить примеры, зависящие от специфических деталей исходной задачи. Это гарантирует, что отобранные примеры способны служить эффективными аналогиями для решения новых, но концептуально схожих задач, минимизируя влияние нерелевантного контекста и повышая обобщающую способность модели.

Внедрение извлеченных трасс рассуждений в обучающие промпты позволяет модели обучаться на аналогичных решениях и повышать свои способности к рассуждению. Этот процесс включает в себя добавление примеров успешных цепочек логических выводов к обучающим данным, что позволяет модели выявлять и усваивать общие закономерности в решении задач. В результате модель получает возможность применять эти усвоенные шаблоны к новым, ранее не встречавшимся задачам, тем самым улучшая свою производительность и обобщающую способность в области рассуждений.

Оптимизация для корректности результата посредством обучения с подкреплением

Процесс обучения с подкреплением, используемый для оптимизации целевой модели, опирается на алгоритм RLVR и применяет групповую относительную оптимизацию политики (GRPO). Этот подход позволяет модели не просто генерировать текст, но и активно стремиться к достижению корректных результатов. GRPO, в частности, настраивает модель, поощряя шаги рассуждений, которые приводят к правильным ответам, и, таким образом, повышает её способность к решению сложных задач. Благодаря этому, модель не просто учится имитировать процесс решения, а действительно фокусируется на достижении верного исхода, что критически важно для математических и логических рассуждений.

В процессе обучения модели с подкреплением акцент делается на поощрении правильных ответов, что стимулирует её к выбору и приоритезации цепочек рассуждений, ведущих к успешным решениям. Этот подход позволяет модели не просто запоминать ответы, но и развивать способность к логическому мышлению и построению последовательных аргументов. По сути, система вознаграждает не сам результат, а процесс достижения этого результата, способствуя формированию более надежных и обоснованных стратегий решения задач. В результате, модель начинает отдавать предпочтение тем путям рассуждений, которые с наибольшей вероятностью приведут к верному ответу, игнорируя или отбрасывая ошибочные или неэффективные подходы.

Результаты исследований демонстрируют устойчивое повышение точности модели при использовании RA-RFT на соревнованиях по математическому мышлению. В частности, наблюдается улучшение показателя average@32 до 7.1 процентных пунктов в сравнении с GRPO при применении к модели Qwen3-1.7B. Анализ данных по четырем различным бенчмаркам выявил среднее увеличение точности на 4.1 процентных пункта. Данное повышение подтверждает эффективность RA-RFT в оптимизации моделей для решения сложных математических задач и достижении более высоких результатов в соревновательной среде.

При использовании языковой модели Qwen3-4B, применение методики RA-RFT (Reinforcement Learning from Reasoning Traces) демонстрирует значительное повышение точности решения математических задач. В частности, на бенчмарке AIME 2025 наблюдается улучшение результата на 2.8 пункта. Более широкое исследование, охватывающее четыре различных теста, показывает, что RA-RFT в среднем повышает производительность модели на 2.6 пункта, подтверждая эффективность данного подхода к обучению с подкреплением для оптимизации корректности результатов и улучшения способности решать сложные математические задачи.

Исследование демонстрирует стремление к совершенствованию систем искусственного интеллекта посредством обучения на примерах и адаптации к новым задачам. В основе предложенного подхода Retrieval-Augmented Reinforcement Fine-Tuning (RA-RFT) лежит принцип использования аналогичных решений для направления процесса обучения, что позволяет модели более эффективно осваивать сложные математические концепции. Как однажды заметил Г.Х. Харди: «Математика — это не набор фактов, а способ мышления». Данное утверждение находит отражение в работе, поскольку RA-RFT способствует формированию у языковой модели навыков аналогичного рассуждения, необходимых для решения разнообразных задач и достижения устойчивой производительности.

Что впереди?

Представленная работа, подобно любому другому шагу вперёд, лишь обнажает горизонт нерешенных вопросов. Успешность предложенного подхода — Retrieval-Augmented Reinforcement Fine-Tuning (RA-RFT) — указывает на плодотворность поиска аналогов в процессе обучения больших языковых моделей. Однако вопрос о том, как определить «наиболее подходящий» аналог, остаётся открытым. Необходима дальнейшая работа над совершенствованием механизмов извлечения информации, способных учитывать не только формальное сходство, но и контекстуальные нюансы задачи.

Очевидно, что нынешние метрики оценки математического мышления упускают из виду тонкости процесса рассуждения. Простая демонстрация правильного ответа — это лишь следствие, а не показатель истинного понимания. Архитектура без истории, без возможности отслеживать эволюцию мысли, хрупка и скоротечна. Задержки в достижении результатов — это цена углубленного понимания, необходимого для построения действительно разумных систем.

В конечном счёте, все системы стареют — вопрос лишь в том, делают ли они это достойно. Время — не метрика, а среда обитания этих систем. Будущие исследования должны быть направлены на создание моделей, способных к непрерывному обучению и адаптации, извлекая уроки не только из успешных решений, но и из собственных ошибок, тем самым приближаясь к более глубокому и устойчивому пониманию математических принципов.

Оригинал статьи: https://arxiv.org/pdf/2606.13680.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-06-14 05:56