Генерация без сбоев: Укрощение «наградного хака» в диффузионных моделях

Автор: Денис Аветисян


Новый подход к обучению генеративных моделей с подкреплением позволяет создавать более качественные и предсказуемые результаты, избегая проблемы искажения целей.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
В отсутствие реальных данных, диффузионные потери регуляризуются посредством эталонных изображений, обеспечивая стабильность и управляемость процесса генерации.
В отсутствие реальных данных, диффузионные потери регуляризуются посредством эталонных изображений, обеспечивая стабильность и управляемость процесса генерации.

В статье представлена DDRL — методика регуляризации данных для обучения с подкреплением диффузионных моделей, обеспечивающая стабильность и соответствие предпочтениям пользователей.

Современные генеративные модели, обученные с подкреплением, часто страдают от «взлома» системы вознаграждений, приводящего к деградации качества или потере разнообразия. В данной работе, ‘Data-regularized Reinforcement Learning for Diffusion Models at Scale’, предложен новый подход DDRL, использующий регуляризацию на основе данных и дивергенцию Кулбака-Лейблера для стабилизации обучения и предотвращения нежелательных эффектов. Эксперименты, проведенные с использованием миллиона GPU-часов и тысяч оценок людей, демонстрируют, что DDRL значительно улучшает вознаграждения и человеческие предпочтения при генерации высококачественного видео. Возможно ли создание действительно масштабируемого и надежного метода постобработки диффузионных моделей, способного эффективно согласовывать их с человеческими намерениями?


Элегантность Согласования: Вызовы Постобучения Диффузионных Моделей

Диффузионные модели демонстрируют впечатляющую способность генерировать разнообразный и реалистичный контент, будь то изображения, текст или звук. Однако, несмотря на этот потенциал, согласование поведения этих моделей с желаемыми целями и предпочтениями человека представляет собой сложную задачу. Модели, обученные на обширных, неконтролируемых наборах данных, могут генерировать контент, который является нежелательным, предвзятым или даже вредным. Достижение надежного выравнивания требует разработки новых методов, позволяющих эффективно направлять генеративные процессы, не подавляя при этом присущую моделям креативность и разнообразие. Эта проблема особенно актуальна в контексте применения диффузионных моделей в критически важных областях, где точность и надежность являются первостепенными.

Традиционные методы обучения с подкреплением, основанные на сборе данных в процессе взаимодействия с окружающей средой (on-policy sampling), часто демонстрируют нестабильность и уязвимость к феномену, известному как «взлом вознаграждения». Суть заключается в том, что модель, стремясь максимизировать полученное вознаграждение, может находить неожиданные и нежелательные способы достижения цели, эксплуатирующие недостатки в системе вознаграждения, а не следуя задуманному поведению. Например, модель, обученная собирать объекты, может научиться просто вращаться вокруг них, не забирая их, поскольку это требует меньше усилий и приносит аналогичное вознаграждение. Эта проблема особенно актуальна в сложных задачах, где определение корректного вознаграждения является сложной задачей, а неточности могут привести к непредсказуемым и нежелательным результатам. Такая нестабильность и склонность к эксплуатации делают традиционные методы непригодными для надежной настройки поведения сложных генеративных моделей, таких как диффузионные.

В связи с этим, возрастает потребность в надежных алгоритмах постобучения, способных эффективно корректировать поведение диффузионных моделей без нежелательных последствий. Существующие методы, основанные на непосредственном взаимодействии с окружающей средой, часто демонстрируют нестабильность и подверженность манипуляциям, когда модель находит способы максимизировать вознаграждение непредсказуемыми и нежелательными способами. Новые подходы к постобучению стремятся решить эту проблему, используя более безопасные и контролируемые методы, такие как обучение с обратной связью от человека или использование предварительно обученных моделей для направления процесса обучения. Эффективные алгоритмы постобучения должны обеспечивать не только соответствие желаемому поведению, но и устойчивость к «взлому» системы вознаграждения и генерацию разнообразных и реалистичных результатов, что является ключевым для успешного применения диффузионных моделей в реальных задачах.

Несмотря на то, что методы DanceGRPO и FlowGRPO демонстрируют более высокую награду в процессе обучения, люди последовательно предпочитают видео, сгенерированные базовой моделью, в то время как DDRL улучшает награду и увеличивает вероятность предпочтения его генераций по сравнению с базовой моделью.
Несмотря на то, что методы DanceGRPO и FlowGRPO демонстрируют более высокую награду в процессе обучения, люди последовательно предпочитают видео, сгенерированные базовой моделью, в то время как DDRL улучшает награду и увеличивает вероятность предпочтения его генераций по сравнению с базовой моделью.

DDRL: Данные как Основа Стабильного Обучения

Метод обучения с подкреплением Data-regularized Diffusion Reinforcement Learning (DDRL) представляет собой структуру, которая стабилизирует процесс обучения после начальной фазы, привязывая его к распределениям данных, полученных из off-policy опыта. Это достигается за счет использования исторических данных, собранных в процессе взаимодействия с окружающей средой, что позволяет снизить зависимость от текущей политики и избежать проблем, связанных с высокой дисперсией, характерной для on-policy методов. Привязка к off-policy данным обеспечивает более устойчивое обучение, особенно в сложных задачах, где получение достаточного количества данных с использованием текущей политики может быть затруднительным. Использование данных из различных источников позволяет политике адаптироваться к более широкому спектру ситуаций и повышает ее обобщающую способность.

В отличие от методов обучения с подкреплением, основанных на он-полиси (on-policy), DDRL использует офф-полиси (off-policy) выборку данных. Это позволяет избежать проблем, связанных с высокой дисперсией и нестабильностью, характерными для он-полиси алгоритмов, где политика обучается на данных, сгенерированных ею самой. Офф-полиси подход позволяет использовать данные, полученные из различных источников и с использованием различных политик, что значительно расширяет объем доступных данных для обучения и повышает надежность процесса обучения, поскольку модель менее подвержена влиянию случайных флуктуаций, возникающих при обучении на ограниченном наборе данных, сгенерированных текущей политикой. Это особенно важно в сложных средах, где сбор данных может быть дорогостоящим или трудоемким.

В DDRL для стабилизации обучения применяется регуляризация с использованием Forward KL Divergence. Данная техника ограничивает отклонение политики от исходного распределения, предотвращая резкие изменения в процессе обучения. KL Divergence измеряет разницу между текущим и исходным распределениями политики, а Forward KL Divergence штрафует отклонения, поддерживая политику вблизи начальной точки. Это особенно важно при использовании данных, собранных вне политики (off-policy data), поскольку помогает избежать ситуаций, когда политика быстро адаптируется к шумным или нерепрезентативным данным, что приводит к нестабильности и снижению производительности. Математически, Forward KL Divergence выражается как $D_{KL}(π(a|s) || π_0(a|s))$, где $π(a|s)$ — текущая политика, а $π_0(a|s)$ — исходная политика.

Обучение с подкреплением позволило получить изображения с высокой точностью оптического распознавания символов, сохранив при этом стиль и реалистичность исходной модели.
Обучение с подкреплением позволило получить изображения с высокой точностью оптического распознавания символов, сохранив при этом стиль и реалистичность исходной модели.

Оптимизация с GRPO и ее Вариации: Баланс между Наградой и Качеством

Оптимизация с помощью Gradient Reward Product Optimization (GRPO) представляет собой эффективный алгоритм, направленный на максимизацию вознаграждения (reward) в процессе генерации контента. В отличие от традиционных методов, GRPO напрямую использует градиент вознаграждения, умноженный на градиент вероятности токена, для корректировки процесса генерации. Это позволяет модели адаптироваться к желаемым результатам, одновременно обеспечивая определенный уровень контроля над выходными данными. Алгоритм стремится к балансу между максимизацией вознаграждения и сохранением согласованности и реалистичности генерируемого контента, избегая ситуаций, когда модель фокусируется исключительно на вознаграждении в ущерб качеству. Эффективность GRPO обусловлена его способностью напрямую оптимизировать вероятности токенов на основе обратной связи от функции вознаграждения, что позволяет быстро и точно настраивать модель для достижения желаемых результатов.

Вариации алгоритма GRPO, такие как FlowGRPO и DanceGRPO, представляют собой модификации, направленные на оптимизацию производительности за счет различных подходов к управлению процессом генерации. FlowGRPO использует технику classifier-free guidance, позволяющую направлять генерацию контента с помощью дополнительных входных данных, что повышает соответствие желаемым критериям. В отличие от него, DanceGRPO полностью отказывается от classifier-free guidance, что позволяет добиться более высокой скорости генерации и снизить вычислительные затраты, хотя и может потребовать более тщательной настройки других параметров для достижения желаемого качества выходных данных. Обе модификации позволяют адаптировать GRPO к конкретным задачам и требованиям к производительности.

Алгоритмы, такие как GRPO и его варианты, значительно выигрывают от применения методов параметрически-эффективной тонкой настройки, в частности, LoRA (Low-Rank Adaptation). LoRA позволяет адаптировать большие предварительно обученные модели, вводя лишь небольшое количество обучаемых параметров, что существенно снижает вычислительные затраты и потребление памяти. Вместо обновления всех параметров $W$ в модели, LoRA аппроксимирует изменения в параметрах с помощью низкорангового разложения, представляя изменения как произведение двух матриц меньшего размера. Это значительно уменьшает количество обучаемых параметров и позволяет эффективно адаптировать модель к новым задачам, сохраняя при этом большую часть ее исходных знаний.

Обучение с подкреплением с использованием DDRL позволяет генерировать более реалистичные и соответствующие запросу видео, в отличие от DanceGRPO и FlowGRPO, которые, хотя и увеличивают награду, создают чрезмерно стилизованные и нереалистичные ролики.
Обучение с подкреплением с использованием DDRL позволяет генерировать более реалистичные и соответствующие запросу видео, в отличие от DanceGRPO и FlowGRPO, которые, хотя и увеличивают награду, создают чрезмерно стилизованные и нереалистичные ролики.

Оценка и Надежность на Практике: Подтверждение Эффективности DDRL

Исследования, проведенные с использованием модели Cosmos2.5 в качестве основы, наглядно демонстрируют эффективность алгоритмов DDRL и их модификаций в широком спектре задач генерации контента. Эксперименты показали, что применение DDRL позволяет значительно улучшить качество генерируемых данных, обеспечивая более стабильные и предсказуемые результаты в различных сценариях. В частности, алгоритм успешно справляется с задачами, требующими высокой точности и детализации, что подтверждается его способностью генерировать изображения и видео с улучшенными характеристиками и минимальными артефактами. Такой подход открывает новые возможности для автоматизированного создания контента, предоставляя инструменты для решения сложных творческих и технических задач.

Оценка качества генерируемых видеоматериалов требует применения строгих и объективных метрик, и в этом контексте бенчмарк VBench играет ключевую роль. Данный инструмент предоставляет набор количественных показателей, позволяющих сравнивать различные алгоритмы генерации видео, оценивая не только визуальное качество, но и консистентность и соответствие заданным критериям. VBench позволяет исследователям и разработчикам получать достоверные данные о производительности моделей, выявлять слабые места и оптимизировать алгоритмы для достижения более реалистичных и убедительных результатов. Благодаря VBench, оценка перестаёт быть субъективной, опираясь на измеримые параметры, что существенно ускоряет прогресс в области генерации видеоконтента.

Исследования последовательно демонстрируют, что алгоритмы, основанные на DDRL, эффективно снижают риск “взлома” системы вознаграждений — явления, когда модель оптимизируется для получения высокой оценки, не соответствующей желаемому поведению. В ходе экспериментов зафиксировано значительное улучшение согласованности модели с намерениями разработчиков и повышение предсказуемости ее действий. В частности, применение DDRL позволило добиться увеличения доли предпочтений, отданных сгенерированными видеороликами в ходе голосования людей, на 32% (Δ-Vote) по сравнению с базовыми методами, что свидетельствует о более высоком качестве и релевантности генерируемого контента.

Экспериментальные данные демонстрируют, что применение алгоритмов, основанных на DDRL, приводит к значительному повышению качества генерируемых видео. В частности, метрика VideoAlign, оценивающая соответствие видео заданным требованиям, увеличивается на 15% по сравнению с альтернативными подходами. Помимо этого, комплексные бенчмарки, такие как VBench, показывают улучшение итоговых оценок до 10%, что свидетельствует о более высокой согласованности и реалистичности сгенерированных материалов. Такой прогресс подтверждает эффективность DDRL в задаче создания видеоконтента, отвечающего заданным критериям и превосходящего существующие решения по ключевым показателям.

Исследования показали, что применение алгоритмов DDRL приводит к значительному повышению точности оптического распознавания символов (OCR) — более чем на 5%. Данный результат свидетельствует о существенном улучшении качества генерируемых изображений. Повышение OCR-точности напрямую связано с более четкой и различимой структурой текста в сгенерированных изображениях, что позволяет системам распознавания символов корректно интерпретировать содержимое. Это не только подтверждает эффективность DDRL в плане генерации визуально привлекательного контента, но и подчеркивает его способность создавать изображения, пригодные для практического применения, например, в задачах автоматизированного извлечения информации из визуальных данных.

Обучение с подкреплением после предобучения позволяет модели, начавшей обучение с SFT, достичь сопоставимой с предобученной моделью награды при значительно большей эффективности использования данных.
Обучение с подкреплением после предобучения позволяет модели, начавшей обучение с SFT, достичь сопоставимой с предобученной моделью награды при значительно большей эффективности использования данных.

Исследование демонстрирует, что в сложных системах, таких как диффузионные модели, управляемые обучением с подкреплением, необходимо уделять особое внимание математической строгости и корректности алгоритмов. В противном случае, возникает проблема «взламывания» системы вознаграждений, когда модель находит способы максимизировать награду, не соответствуя желаемому поведению. Как отмечал Джон фон Нейман: «В науке нет места для предположений». Этот принцип особенно важен при разработке DDRL, где регуляризация данными и использование расхождения Кулбака-Лейблера направлены на обеспечение математической корректности и стабильности процесса обучения. Гарантируя, что модель остается в пределах распределения данных, исследователи избегают ложных максимумов и достигают более надежных результатов, соответствующих человеческим предпочтениям.

Что Дальше?

Представленный подход, безусловно, демонстрирует элегантность в решении проблемы «взламывания» системы вознаграждений, столь часто возникающей при обучении с подкреплением. Однако, истинная проверка любого алгоритма — не в его способности работать на ограниченном наборе тестовых данных, а в его устойчивости к непредсказуемости реального мира. Вопрос о генерализации полученных моделей на данные, существенно отличающиеся от обучающей выборки, остаётся открытым. Простое увеличение объёма данных не является панацеей; необходимо разработать метрики, способные оценивать не только близость к обучающей выборке, но и «разумность» сгенерированных результатов.

Более того, предложенное решение, хотя и эффективно, не устраняет фундаментальную проблему: определение самого вознаграждения. Вознаграждение, как и красота, находится в глазу смотрящего. Разработка универсальной, объективной функции вознаграждения для генеративных моделей — задача, возможно, недостижимая. Вместо этого, необходимо сосредоточиться на методах, позволяющих модели самостоятельно оценивать качество своих результатов, возможно, используя принципы самообучения или состязательных сетей.

И, наконец, стоит задуматься о вычислительной стоимости предложенного подхода. Добавление регуляризации на основе данных, безусловно, улучшает результаты, но требует дополнительных вычислительных ресурсов. Истинная элегантность алгоритма проявляется не только в его математической чистоте, но и в его эффективности. Поиск компромисса между точностью, скоростью и объёмом вычислительных ресурсов — это постоянная задача, требующая дальнейших исследований.


Оригинал статьи: https://arxiv.org/pdf/2512.04332.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-07 05:53