Обучение зрения и логики: как направить исследования ИИ

Автор: Денис Аветисян


Новый подход позволяет значительно улучшить способность искусственного интеллекта рассуждать, используя специально подобранные примеры для расширения возможностей обучения с подкреплением.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
Предложен метод селективного вмешательства на основе энтропии (SaEI), заключающийся в направленном воздействии на энтропию политики посредством антагонистической выборки (EgAS), использующей энтропию как цель для искажения визуальных данных с помощью градиентов, и отбрасывании токенов с экстремальными значениями энтропии (TsEC) для фокусировки вычислений на умеренно информативных областях.
Предложен метод селективного вмешательства на основе энтропии (SaEI), заключающийся в направленном воздействии на энтропию политики посредством антагонистической выборки (EgAS), использующей энтропию как цель для искажения визуальных данных с помощью градиентов, и отбрасывании токенов с экстремальными значениями энтропии (TsEC) для фокусировки вычислений на умеренно информативных областях.

Исследователи предлагают метод селективного вмешательства в энтропию с использованием состязательных примеров для повышения эффективности обучения моделей, работающих с визуальными данными и языком.

Несмотря на успехи обучения с подкреплением (RL) в улучшении способностей моделей «зрение-язык» к рассуждениям, существующие методы часто упускают возможности повышения разнообразия генерируемых ответов. В данной работе, ‘Boosting RL-Based Visual Reasoning with Selective Adversarial Entropy Intervention’, предложен новый подход, использующий селективное воздействие на энтропию с помощью антагонистических примеров, полученных на основе анализа энтропии сгенерированных ответов. Это позволяет расширить пространство поиска решений в процессе обучения с подкреплением и значительно повысить эффективность модели в задачах визуального рассуждения. Сможем ли мы разработать еще более эффективные стратегии управления энтропией для дальнейшего улучшения способностей моделей к обобщению и решению сложных задач?


Пределы Масштаба: Разумные Языковые Модели

Несмотря на впечатляющие возможности, большие языковые модели зачастую испытывают трудности при решении сложных математических задач, что указывает на предел эффективности простого увеличения масштаба. Исследования показывают, что наращивание количества параметров и данных обучения дает все меньше прироста в точности решения математических проблем, требующих логических выводов и абстрактного мышления. В частности, модели могут успешно оперировать с простыми вычислениями, но испытывают затруднения при понимании контекста сложных задач, требующих применения нескольких математических концепций или нестандартных подходов. Это свидетельствует о том, что для достижения настоящего уровня математического рассуждения необходимы инновационные стратегии, выходящие за рамки простого масштабирования, такие как интеграция символьных вычислений или разработка новых архитектур, способных к более глубокому пониманию математических принципов, например, решение уравнений $x^2 + 2x + 1 = 0$.

Несмотря на впечатляющие успехи в генерации текста и понимании языка, современные большие языковые модели сталкиваются с ограничениями, обусловленными исключительно масштабированием. Увеличение числа параметров и объемов обучающих данных приносит всё меньше ощутимого прогресса в решении сложных задач, требующих истинного рассуждения. Данный подход, основанный исключительно на наращивании вычислительных мощностей, приближается к точке насыщения, демонстрируя, что для достижения реального прогресса в области искусственного интеллекта необходимы принципиально новые стратегии. Разработка инновационных архитектур, алгоритмов обучения и методов представления знаний представляется ключевой задачей для преодоления текущих ограничений и создания систем, способных к логическому мышлению и решению проблем, а не только к статистическому воспроизведению шаблонов из обучающих данных.

Оценка эффективности языковых моделей в решении математических задач требует точной интерпретации ответов, представленных в свободной текстовой форме. Проблема заключается в том, что стандартные метрики могут быть нечувствительны к незначительным ошибкам или не учитывать логическую последовательность решения. Для преодоления этих сложностей разрабатываются специализированные инструменты, такие как MathRuler, который позволяет оценивать математическую корректность ответов, а также современные парсеры, например Gemini-2.0-Flash-001, способные преобразовывать текстовые ответы в структурированное представление, пригодное для автоматизированной проверки. Использование подобных технологий необходимо для получения объективных и надежных результатов, демонстрирующих реальные возможности моделей в области математического мышления и позволяющих выявлять слабые места для дальнейшего улучшения, например, при решении задач, включающих $x^2 + y^2 = r^2$.

Эксперименты на наборе данных Geo3K с размером группы n=12 показали, что предложенный метод SaEI обеспечивает более стабильную динамику энтропии и более высокую точность обучения по сравнению с GRPO, что подтверждается как исходными данными, так и данными, сглаженными экспоненциальным скользящим средним.
Эксперименты на наборе данных Geo3K с размером группы n=12 показали, что предложенный метод SaEI обеспечивает более стабильную динамику энтропии и более высокую точность обучения по сравнению с GRPO, что подтверждается как исходными данными, так и данными, сглаженными экспоненциальным скользящим средним.

Обучение с Подкреплением: Усилитель Рассуждений

Обучение с подкреплением представляет собой перспективный подход к расширению возможностей логического мышления у моделей «Видение-Язык». В отличие от традиционных методов обучения, основанных на предопределенных данных, обучение с подкреплением позволяет модели учиться посредством получения сигналов вознаграждения (reward signals) за выполнение определенных задач. Этот процесс имитирует обучение через опыт, где модель корректирует свои действия, стремясь максимизировать получаемое вознаграждение. В контексте моделей «Видение-Язык» это означает, что модель может обучаться решать сложные задачи, требующие визуального понимания и логических выводов, путем получения положительной обратной связи за правильные ответы и отрицательной — за ошибочные, что позволяет ей постепенно совершенствовать свои навыки рассуждения.

Модель вознаграждения является ключевым компонентом обучения с подкреплением, обеспечивая количественную оценку качества генерируемых ответов. Она функционирует как функция, принимающая на вход пару «изображение-вопрос» и сгенерированный ответ, и выдающая скалярное значение, представляющее собой оценку релевантности, точности и полноты ответа. Этот сигнал вознаграждения используется алгоритмом обучения с подкреплением для корректировки политики генерации ответов, направляя модель к производству более качественных и обоснованных решений. Точность и надежность модели вознаграждения напрямую влияют на эффективность всего процесса обучения, поэтому её разработка и верификация являются критически важными этапами.

Эффективное обучение моделей, использующих обучение с подкреплением, требует особого внимания к формату входных данных. Для представления задач, требующих логического мышления, оптимальным является использование структуры “Пара Изображение-Вопрос”. Данный формат позволяет модели сопоставлять визуальную информацию с текстовым запросом, а затем генерировать ответ, который оценивается моделью вознаграждения. Использование пар “Изображение-Вопрос” обеспечивает структурированный ввод данных, необходимый для обучения модели установлению связей между визуальным контекстом и требуемыми рассуждениями, что значительно повышает эффективность процесса обучения и качество генерируемых ответов.

Пример пары «визуальный вопрос - ответ» демонстрирует возможности HallusionBench, эталонного набора данных для оценки работы моделей в условиях, отличных от обучающих.
Пример пары «визуальный вопрос — ответ» демонстрирует возможности HallusionBench, эталонного набора данных для оценки работы моделей в условиях, отличных от обучающих.

Энтропийное Вмешательство: Направляя Исследование для Надежных Рассуждений

Поддержание достаточного уровня энтропии политики является критически важным для эффективного исследования пространства состояний в обучении с подкреплением. Низкая энтропия приводит к детерминированной политике, когда агент эксплуатирует лишь небольшую часть доступных действий, что значительно увеличивает риск сходимости к локальным оптимумам и снижает общую производительность. Высокая энтропия, напротив, стимулирует разнообразие действий, позволяя агенту исследовать новые стратегии и потенциально находить глобально оптимальные решения. Математически, энтропия $H(\pi)$ политики $\pi$ измеряет степень неопределенности в выборе действий, и ее максимизация способствует более полному исследованию среды.

Селективное антагонистическое вмешательство на основе энтропии представляет собой новый подход к исследованию пространства состояний в обучении с подкреплением. Данная техника использует отбор проб, направляемый энтропией ($H$), для намеренного внесения возмущений во входные визуальные данные. Целью этих возмущений является стимулирование более широкого исследования, предотвращение преждевременной сходимости к локальным оптимумам и повышение устойчивости модели к незначительным изменениям во входных данных. В отличие от случайных возмущений, отбор проб, направляемый энтропией, позволяет сосредоточиться на тех областях входных данных, которые оказывают наибольшее влияние на неопределенность в политике агента, тем самым оптимизируя процесс исследования.

Метод токено-селективного вычисления энтропии направлен на максимизацию влияния возмущения входных данных при сохранении фактической корректности изображения. Вместо применения случайных или глобальных изменений, данный подход идентифицирует и возмущает только те токены (фрагменты изображения), которые обладают наименьшей энтропией — то есть, являются наиболее предсказуемыми для модели. Это позволяет эффективно стимулировать исследование новых областей пространства состояний, не внося существенных искажений в семантическое содержание изображения и не нарушая его соответствие реальности. Выбор токенов для возмущения осуществляется на основе их вклада в общую энтропию, что обеспечивает оптимальное соотношение между уровнем возмущения и сохранением информации, необходимой для дальнейшего обучения и принятия решений.

В отличие от существующих методов, вмешивающихся в энтропию политики при оптимизации, наш подход использует направленные противником примеры для воздействия на энтропию политики непосредственно в процессе выборки, оперируя токенами ответа.
В отличие от существующих методов, вмешивающихся в энтропию политики при оптимизации, наш подход использует направленные противником примеры для воздействия на энтропию политики непосредственно в процессе выборки, оперируя токенами ответа.

За Гранью Случайного Шума: Преимущество, Основанное на Принципах

В отличие от методов, таких как NoisyRollout, которые вводят случайный гауссовский шум, селективное антагонистическое вмешательство в энтропию предлагает более целенаправленный и эффективный подход к исследованию стратегий. Вместо хаотичного внесения изменений, данный метод фокусируется на областях, где модель проявляет наибольшую неуверенность, стимулируя тем самым более осмысленное и продуктивное исследование пространства действий. Такой подход позволяет модели не просто случайным образом перебирать варианты, а концентрироваться на наиболее перспективных направлениях, что приводит к более быстрому обучению и повышению общей производительности. В результате, селективное вмешательство в энтропию обеспечивает более точное и эффективное управление процессом исследования, что особенно важно при решении сложных задач, требующих высокой точности и надежности.

Оптимизация относительной групповой политики, основанная на алгоритме Proximal Policy Optimization, представляет собой масштабируемую и эффективную структуру для тонкой настройки моделей «зрение-язык». В отличие от традиционных методов, требующих значительных вычислительных ресурсов для обработки сложных моделей, данный подход позволяет значительно снизить затраты, сохраняя при этом высокую точность. Ключевым преимуществом является возможность адаптации к различным задачам, связанным с обработкой визуальной информации и языковым анализом, благодаря чему модель способна эффективно извлекать и использовать знания из мультимодальных данных. Такая архитектура позволяет добиться значительного улучшения производительности в задачах, требующих комплексного понимания как визуальных, так и текстовых данных, открывая новые возможности для применения в областях, таких как робототехника, автоматическое описание изображений и интеллектуальные системы поддержки принятия решений.

Применение усовершенствованного подхода к решению геометрических задач позволило значительно повысить способность модели к выполнению сложных математических рассуждений. В ходе экспериментов на наборе данных Geometry3K зафиксировано увеличение точности на 2.16% по сравнению с базовым вариантом Group Relative Policy Optimization (GRPO). Данный результат демонстрирует эффективность предложенной методики в области геометрического моделирования и подтверждает её потенциал для дальнейшего улучшения способностей искусственного интеллекта к решению задач, требующих логического мышления и пространственного воображения. Улучшение точности, хотя и кажущееся небольшим, имеет существенное значение для сложных математических задач, где даже незначительное повышение эффективности может привести к прорыву в решении проблемы.

Удаление селективного вычисления энтропии по токенам негативно влияет на производительность модели.
Удаление селективного вычисления энтропии по токенам негативно влияет на производительность модели.

Будущее Рассуждений: Интеллектуальные и Адаптируемые Модели

Вместо простого увеличения масштаба моделей искусственного интеллекта, современный подход направлен на активное формирование процесса исследования. Вмешательство в энтропию, то есть регулирование степени неопределенности в процессе обучения, позволяет моделям не просто запоминать данные, а действительно учиться рассуждать. Этот метод, в отличие от пассивного масштабирования, способствует развитию адаптивных систем, способных к более эффективному обобщению знаний и решению сложных задач. Такой подход открывает путь к созданию моделей, демонстрирующих признаки подлинного интеллекта, а не просто статистической обработки информации.

Новый подход к развитию моделей обработки изображений и языка позволяет им успешно адаптироваться к сложным задачам, требующим логического мышления, и эффективно обобщать полученные знания для решения разнообразных проблем. Результаты исследований демонстрируют значительное улучшение производительности: зафиксировано увеличение на 2.00% в тесте MM-Eureka, средняя точность на неизученных ранее (OOD) наборах данных выросла на 1.37%, а показатель HallusionBench улучшился на 1.18% по сравнению со стандартным алгоритмом GRPO. Данные достижения подтверждают, что предложенная методика способствует развитию более гибких и интеллектуальных систем искусственного интеллекта, способных к адаптации и решению новых задач.

Предстоящие исследования направлены на углубление и совершенствование представленных методов, с целью их применения к более широкому спектру когнитивных задач. Особое внимание будет уделено адаптации этих техник для решения проблем, требующих не только логического вывода, но и креативности, планирования и понимания контекста. Развитие этих подходов, основанных на активном формировании процесса исследования и управлении энтропией, потенциально способно расширить границы искусственного интеллекта, позволяя создавать системы, способные к более гибкому и эффективному решению сложных задач, приближаясь к человеческому уровню когнитивных способностей. Ожидается, что дальнейшие разработки откроют новые возможности в областях, требующих интеллектуальной деятельности, таких как научные открытия, творчество и принятие решений.

Исследование демонстрирует стремление к глубокому пониманию систем, а не просто к их использованию. Как однажды заметил Кен Томпсон: «Каждая система, которую вы видите, может быть взломана.» Эта фраза отражает суть представленного подхода — Selective-adversarial Entropy Intervention (SaEI). Метод не ограничивается стандартными способами обучения с подкреплением, а активно исследует границы возможного, используя направленное вмешательство в энтропию для улучшения исследования пространства состояний. Успешное применение SaEI, позволяющее достичь передовых результатов в визуальном рассуждении, подтверждает, что истинное понимание системы открывает путь к её контролю и, как следствие, к её совершенствованию.

Куда же дальше?

Представленная работа, несомненно, открывает новые пути в обучении моделей, оперирующих зрением и языком. Однако, подобно любому вскрытию сложного механизма, она обнажает больше вопросов, чем даёт окончательных ответов. Вместо простого увеличения производительности на стандартных бенчмарках, представляется более плодотворным исследовать границы самого понятия «разумности» в контексте обучения с подкреплением. Что, если «улучшенное рассуждение» — лишь иллюзия, созданная тонкой настройкой на узкий набор задач?

Особый интерес вызывает потенциальная нестабильность, присущая методам, основанным на состязательном обучении. Использование энтропийных вмешательств, хотя и демонстрирует впечатляющие результаты, требует тщательного анализа условий, при которых это вмешательство становится не просто катализатором обучения, а источником систематических ошибок. Необходимо разработать методы диагностики и контроля этих процессов, чтобы избежать создания «чёрных ящиков», способных к выполнению задач, но не поддающихся пониманию.

Перспективы, возможно, лежат в выходе за рамки чисто реактивного обучения. Изучение возможностей моделирования внутренней «любознательности», стремления к исследованию пространства состояний не только ради вознаграждения, но и ради самого процесса познания — вот что может привести к действительно прорывному развитию. По сути, речь идёт о создании искусственного интеллекта, который не просто решает задачи, а пытается понять мир вокруг себя, даже если это не имеет прямой практической ценности.


Оригинал статьи: https://arxiv.org/pdf/2512.10414.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-14 11:19