Учим языковые модели понимать длинные тексты: новый подход

Автор: Денис Аветисян


Исследователи предлагают инновационный метод обучения, позволяющий значительно улучшить способность моделей работать с большими объемами информации.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал
Итеративное обучение с подкреплением, представленное в данной работе, использует последовательное повышение сложности данных на каждом этапе, начиная с анализа корневого документа и заканчивая построением сложных негативных примеров, что позволяет модели автоматически формировать учебную программу и фокусироваться на наиболее сложных зависимостях для эффективного обучения.
Итеративное обучение с подкреплением, представленное в данной работе, использует последовательное повышение сложности данных на каждом этапе, начиная с анализа корневого документа и заканчивая построением сложных негативных примеров, что позволяет модели автоматически формировать учебную программу и фокусироваться на наиболее сложных зависимостях для эффективного обучения.

PolicyLong — это on-policy фреймворк, использующий итеративное обновление данных и самообучение для повышения производительности языковых моделей при работе с длинным контекстом.

Расширение контекстного окна больших языковых моделей сталкивается с дефицитом качественных данных для обучения на длинных последовательностях. В статье ‘PolicyLong: Towards On-Policy Context Extension’ предложен подход PolicyLong, смещающий акцент в построении обучающих данных в сторону динамического, «on-policy» режима. Итеративное обновление данных, основанное на текущей модели и вычислении энтропии, позволяет PolicyLong формировать самообучающуюся программу и улучшать результаты, особенно при работе с очень длинными контекстами. Способствует ли подобный подход к эволюции данных более эффективному освоению сложных зависимостей в длинных текстах и открывает ли он новые горизонты в развитии контекстных языковых моделей?


Преодоление ограничений долгосрочной памяти в языковых моделях

Традиционные языковые модели часто сталкиваются с трудностями при обработке больших объемов текста из-за неспособности эффективно учитывать зависимости между удаленными элементами. Это явление, известное как проблема долгосрочных зависимостей, ограничивает их возможности в задачах, требующих понимания контекста на протяжении всего документа. Вместо того чтобы удерживать важную информацию из начала текста при обработке его конца, модели склонны «забывать» ее, что приводит к неточностям и неполным ответам. Фактически, чем длиннее текст, тем сложнее модели выявлять и использовать связи между различными его частями, снижая общую производительность и качество генерируемого контента. Именно эта проблема становится серьезным препятствием для применения языковых моделей в областях, где требуется глубокое понимание и анализ больших объемов информации, таких как юридические документы, научные статьи или длинные художественные произведения.

Ограниченность способности обрабатывать большие объемы информации существенно влияет на эффективность языковых моделей при решении задач, требующих глубокого понимания контекста. В частности, это проявляется в сложностях с созданием связных и точных рефератов больших документов, где для выделения ключевых идей необходимо учитывать взаимосвязи между удаленными фрагментами текста. Аналогично, при ответах на сложные вопросы, требующие анализа множества фактов и логических выводов, модели часто допускают ошибки или предоставляют неполную информацию из-за неспособности эффективно использовать весь доступный контекст. Таким образом, преодоление этой проблемы является ключевым шагом к созданию искусственного интеллекта, способного к полноценному пониманию и обработке информации, подобно человеческому разуму.

Политика PolicyLong демонстрирует значительно большее снижение потерь по сравнению с EntropyLong при обучении на данных, сгенерированных на этапах 2 и 3, что указывает на ее способность выявлять более сложные и нетривиальные зависимости в данных.
Политика PolicyLong демонстрирует значительно большее снижение потерь по сравнению с EntropyLong при обучении на данных, сгенерированных на этапах 2 и 3, что указывает на ее способность выявлять более сложные и нетривиальные зависимости в данных.

PolicyLong: Эффективная стратегия динамического обучения

В основе PolicyLong лежит обучение с использованием текущей политики (on-policy learning), что означает, что обратная связь для обновления модели генерируется исключительно на основе действий, предпринятых этой моделью в текущий момент времени. В отличие от off-policy методов, использующих данные, полученные при других политиках, такой подход обеспечивает более стабильное обучение и эффективную конвергенцию. Это связано с тем, что распределение данных, используемых для обучения, напрямую соответствует распределению данных, генерируемых текущей политикой, минимизируя смещения и обеспечивая более точную оценку градиента. Таким образом, PolicyLong гарантирует, что модель обучается на данных, которые наиболее релевантны ее текущему поведению, что приводит к повышению эффективности и устойчивости процесса обучения.

В основе PolicyLong лежит итеративный самообучающийся подход, который неявно регулирует сложность обучающих данных в соответствии с развивающимися возможностями модели. Этот процесс позволяет автоматически адаптировать учебную программу, начиная с простых примеров и постепенно переходя к более сложным, по мере улучшения производительности модели. Такая динамическая корректировка сложности данных позволяет максимизировать эффективность обучения, поскольку модель постоянно работает с задачами, соответствующими её текущему уровню понимания, избегая перегрузки сложными примерами на ранних этапах и обеспечивая непрерывный прогресс в обучении.

PolicyLong расширяет методы построения данных, такие как EntropyLong, путем внедрения верификации на основе теории информации. Данный подход позволяет измерять междокументные зависимости, оценивая информационное содержание и взаимосвязь между различными сегментами текста. Это позволяет создавать обучающие примеры повышенного качества, поскольку система отбирает и комбинирует данные таким образом, чтобы максимизировать информативность и снизить избыточность, что приводит к более эффективному обучению модели и улучшению ее способности к обобщению.

Результаты оценки
Результаты оценки «Иголка в стоге сена» для PolicyLong показывают, что точность извлечения зависит от длины контекста и глубины расположения «иголки», что демонстрирует на тепловой карте.

Конструирование данных и отбор сложных негативных примеров

В PolicyLong для создания сложных негативных примеров используется вторичный поиск (secondary retrieval). Этот процесс подразумевает, что после извлечения первичных кандидатов, производится дополнительный поиск в корпусе данных для выявления примеров, которые максимально похожи на релевантные, но фактически являются нерелевантными. Такой подход позволяет модели обучаться на более сложных и неоднозначных данных, что повышает её устойчивость к шуму и улучшает способность различать релевантную и нерелевантную информацию. В результате, модель становится более надежной в условиях реальных сценариев использования, где часто встречаются примеры, требующие тонкой дифференциации.

Для эффективного поиска кандидатов на сложные негативные примеры используется комбинация библиотек FAISS и Jina Embeddings. FAISS (Facebook AI Similarity Search) обеспечивает быстрый поиск наиболее похожих векторов в большом наборе данных, что позволяет идентифицировать примеры, близкие к релевантным запросам. Jina Embeddings предоставляет инструменты для создания векторных представлений данных, оптимизированных для семантического поиска. Совместное использование этих технологий позволяет значительно ускорить процесс конструирования обучающей выборки и повысить эффективность обучения модели, поскольку акцент делается на примерах, которые потенциально могут вызвать ошибки.

В рамках системы применяется метод «жесткой» выборки отрицательных примеров (hard negative mining), аналогичный подходу, реализованному в NExtLong. Эта техника предполагает активный поиск и включение в обучающую выборку примеров, которые модель изначально классифицирует неверно, но которые, тем не менее, являются релевантными. Использование таких сложных отрицательных примеров позволяет более эффективно обучать модель, повышая ее способность к различению релевантной и нерелевантной информации и, как следствие, улучшая общую производительность системы.

Детальный анализ RULER показал, что стратегия PolicyLong обеспечивает наибольший прирост производительности на подзадачах NIAH Multi-Key (+5.7) и Variable Tracking (+4.0), при этом её преимущество над EntropyLong масштабируется с увеличением длины контекста.
Детальный анализ RULER показал, что стратегия PolicyLong обеспечивает наибольший прирост производительности на подзадачах NIAH Multi-Key (+5.7) и Variable Tracking (+4.0), при этом её преимущество над EntropyLong масштабируется с увеличением длины контекста.

Эмпирическая проверка и прирост производительности

Исследования, проведенные на тестовых наборах LongBench-v2 и RULER, продемонстрировали превосходство PolicyLong над базовыми моделями при решении задач, требующих обработки длинного контекста. Данная архитектура обеспечивает значительный прирост производительности, достигая увеличения показателя RULER на 2.54% при длине контекста в 128 тысяч токенов. Это свидетельствует о способности PolicyLong эффективно извлекать и использовать информацию из обширных текстовых последовательностей, что особенно важно для сложных задач анализа и понимания текста, где контекст играет решающую роль. Полученные результаты подтверждают перспективность данной модели для приложений, требующих работы с большими объемами данных и глубоким пониманием взаимосвязей между различными частями текста.

Применение разработанной архитектуры к модели Qwen2.5-3B с использованием корпусов данных, таких как FineWeb-Edu и Cosmopedia, демонстрирует стабильное достижение передовых результатов в задачах обработки длинного контекста. В ходе тестирования зафиксировано значительное улучшение производительности: на +2.9 пункта по сравнению с существующими решениями на LongBench-v2 Medium и на +2.8 пункта на LongBench-v2 Long. Эти показатели подтверждают эффективность предложенного подхода к оптимизации моделей для работы с большими объемами информации, открывая новые возможности для решения сложных задач, требующих глубокого понимания контекста.

Механизм адаптивного порогового процентиля позволяет динамически отбирать обучающие данные, что является ключевым фактором в оптимизации модели для задач, требующих обработки длинного контекста. Вместо использования фиксированного набора данных, система автоматически определяет наиболее сложные и информативные примеры для обучения на каждом этапе. Это достигается путем анализа потерь модели на различных обучающих примерах и выбора тех, которые находятся выше определенного порогового процентиля. Такой подход гарантирует, что модель постоянно сталкивается с новыми вызовами, что способствует улучшению ее способности к рассуждениям и анализу информации в длинных последовательностях текста. В результате, достигается более эффективное обучение и повышение производительности модели при работе с большими объемами данных.

Наблюдаемое расхождение в обучении с использованием данных, собранных другой политикой, проявляется в смещении распределения энтропии состояний и быстром снижении потерь при предсказании целевых слов, что указывает на растущее несоответствие между данными и моделью.
Наблюдаемое расхождение в обучении с использованием данных, собранных другой политикой, проявляется в смещении распределения энтропии состояний и быстром снижении потерь при предсказании целевых слов, что указывает на растущее несоответствие между данными и моделью.

Исследование демонстрирует, что эффективное обучение моделей обработки естественного языка, особенно при работе с длинным контекстом, требует не просто увеличения объема данных, но и постоянной адаптации обучающего процесса. Авторы PolicyLong предлагают итеративный подход, при котором модель сама формирует учебные примеры, отбирая наиболее сложные и информативные. Это согласуется с убеждением, что структура определяет поведение системы. Как заметил Джон Маккарти: «Лучший способ сделать что-то — это сделать это». В данном случае, «сделать это» — это построить систему, способную к самосовершенствованию, где каждый шаг обучения опирается на предыдущий опыт и направлен на повышение эффективности, особенно при решении задач, требующих анализа длинных последовательностей данных.

Куда Дальше?

Представленная работа, фокусируясь на итеративном обновлении обучающих данных, демонстрирует элегантность подхода, где система сама формирует условия своего развития. Однако, возникает вопрос: не является ли эта саморефлексия лишь замыканием в собственном пространстве, создавая иллюзию прогресса? Устойчивость модели, безусловно, возрастает, но не является ли это ценой потери способности к генерации действительно нового, непредсказуемого поведения?

Очевидно, что эффективность PolicyLong проявляется в условиях, где контекст имеет решающее значение. Тем не менее, остается нерешенной проблема масштабируемости: как адаптировать данный подход к задачам, требующим обработки еще более длинных последовательностей, не увязая в вычислительных затратах? Иными словами, где та грань, за которой стремление к “идеальному” контексту становится контрпродуктивным, нивелируя преимущества самой архитектуры?

Будущие исследования, вероятно, будут направлены на поиск баланса между самообучением и внешними источниками информации, а также на разработку более эффективных методов оценки качества генерируемых данных. В конечном счете, истинный тест для подобных систем — не в достижении максимальной точности на текущих задачах, а в способности адаптироваться к совершенно новым, непредсказуемым вызовам.


Оригинал статьи: https://arxiv.org/pdf/2604.07809.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-13 02:33