Искусство обмана: Как научить нейросети видеть мир надежнее

Автор: Денис Аветисян


Новый подход использует соревновательное обучение, чтобы автоматически создавать сложные сценарии для повышения устойчивости мультимодальных нейросетей к обману.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал
Атака, основанная на введении локальных семантических изменений - таких как патчи объектов или текстурные модификации - демонстрирует устойчивую обобщающую способность в различных контекстах изображений, в отличие от использования незаметного глобального шума, что подтверждается результатами, полученными в пригородной и спортивной среде.
Атака, основанная на введении локальных семантических изменений — таких как патчи объектов или текстурные модификации — демонстрирует устойчивую обобщающую способность в различных контекстах изображений, в отличие от использования незаметного глобального шума, что подтверждается результатами, полученными в пригородной и спортивной среде.

В статье представлен метод коэволюционного обучения с подкреплением для автоматической генерации разнообразных обучающих данных, повышающих устойчивость мультимодальных больших языковых моделей к перцептивным атакам.

Несмотря на впечатляющие возможности, мультимодальные большие языковые модели (MLLM) демонстрируют уязвимость при обработке сложных визуальных сцен. В работе «Обманывая, учим? Создание перцептивной устойчивости с помощью состязательного обучения с подкреплением» представлен подход, основанный на создании состязательной среды, где модель-атакующий генерирует сложные изображения, а модель-защитник учится адаптироваться к ним. Предложенная методика позволяет автоматически создавать разнообразный и сложный обучающий набор данных, повышая устойчивость MLLM к визуальным помехам и снижая склонность к галлюцинациям. Сможет ли подобный подход стать основой для создания более надежных и устойчивых мультимодальных моделей?


Вызов Визуальной Устойчивости в Мультимодальных Моделях

Современные мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие возможности в обработке и понимании информации, поступающей из различных источников, включая изображения и текст. Однако, несмотря на свою кажущуюся продвинутость, эти модели остаются уязвимыми к незначительным визуальным изменениям, незаметным для человеческого глаза. Даже небольшие возмущения в изображении, такие как едва различимые шумы или искажения, способны привести к существенным ошибкам в предсказаниях модели. Данная уязвимость представляет собой серьезную проблему, поскольку ставит под сомнение надежность MLLM в реальных условиях и ограничивает их применение в критически важных областях, где точность и стабильность являются первостепенными.

Уязвимость больших мультимодальных моделей (MLLM) проявляется не только в неточных прогнозах, но и в генерации ложной информации, известной как «галлюцинации». Даже при использовании, казалось бы, корректных входных данных, модель может выдавать совершенно неверные ответы, представляя вымышленную реальность как факт. Это происходит из-за того, что модель, обученная на огромном объеме данных, может «запомнить» статистические закономерности, а не понимать истинную суть изображений и текста, что приводит к непредсказуемым и потенциально опасным ошибкам. Неспособность отличить правдоподобную, но неверную информацию от действительности является серьезной проблемой, особенно в контексте применения MLLM в критически важных областях, где точность и надежность имеют первостепенное значение.

Традиционные методы обучения, несмотря на впечатляющие результаты, часто оказываются неспособны обеспечить истинную устойчивость больших мультимодальных моделей (MLLM) к визуальным искажениям. Исследования показывают, что даже незначительные, намеренно внесенные изменения в изображения — так называемые “состязательные примеры” — могут приводить к ошибочным предсказаниям. Это происходит из-за того, что модели, как правило, фокусируются на статистических закономерностях в данных, а не на глубоком понимании визуальной информации. В результате, MLLM становятся уязвимы к атакам, направленным на обман их «зрения», и демонстрируют непредсказуемое поведение при столкновении с данными, немного отличающимися от тех, на которых они были обучены. Неспособность к обобщению и адаптации к незначительным изменениям представляет серьезную проблему для надежного использования этих моделей в реальных приложениях.

Обеспечение устойчивости к визуальным помехам имеет первостепенное значение для внедрения больших мультимодальных моделей (MLLM) в приложения, где безопасность является критическим фактором. Неспособность корректно интерпретировать изображения в условиях незначительных искажений может привести к ошибочным выводам и, как следствие, к серьезным последствиям в таких областях, как автономное вождение, медицинская диагностика и системы безопасности. Например, в автоматизированном хирургическом оборудовании даже небольшие визуальные артефакты могут привести к неправильной идентификации анатомических структур, что чревато для пациента. Повышение устойчивости к визуальным помехам — это не просто улучшение точности, а необходимое условие для надежной и безопасной работы MLLM в реальных условиях, где входные данные часто бывают неидеальными и подвержены различным искажениям.

Атакующий демонстрирует способность обобщать и успешно внедрять локальные возмущения в разнообразные визуальные сцены, включая сложные интерьеры, уличные виды и динамичные спортивные события, не нарушая при этом общую визуальную целостность изображения.
Атакующий демонстрирует способность обобщать и успешно внедрять локальные возмущения в разнообразные визуальные сцены, включая сложные интерьеры, уличные виды и динамичные спортивные события, не нарушая при этом общую визуальную целостность изображения.

Рамка AOT: Состязательное Обучение Соперников

Предлагаемый фреймворк Adversarial Opponent Training (AOT) представляет собой парадигму самообучения, в рамках которой две модели — Атакующий (Attacker) и Защитник (Defender) — соревнуются друг с другом. В процессе обучения обе модели итеративно улучшаются, взаимодействуя в цикле обратной связи. Атакующий генерирует примеры, направленные на обход защитных механизмов Защитника, в то время как Защитник адаптируется для противодействия этим атакам. Данный подход позволяет эффективно повысить устойчивость системы к различным типам угроз, за счет постоянной адаптации обеих моделей в процессе состязательного обучения.

В рамках AOT-фреймворка, итеративное улучшение моделей “Атакующий” и “Защитник” достигается за счет применения парадигмы самообучения (Self-Play). В процессе самообучения, “Атакующий” генерирует состязательные примеры, направленные на обман “Защитника”, а “Защитник” в свою очередь учится распознавать и нейтрализовать эти примеры. Каждая итерация обучения повышает эффективность обеих моделей: “Атакующий” становится более искусным в генерации сложных состязательных примеров, а “Защитник” — в их обнаружении. Этот процесс создает замкнутый цикл обучения и адаптации, способствующий постоянному улучшению производительности обеих моделей в задачах, связанных с устойчивостью к состязательным атакам.

Начальный этап обучения в рамках AOT (Adversarial Opponent Training) использует датасет AOT-SFT, состоящий из пар изображений: чистых (оригинальных) и соответствующих им адверсарных примеров. Этот датасет служит для предварительной настройки как модели-Атакующего, так и модели-Защитника. Использование парных данных позволяет установить базовый уровень производительности и обеспечить начальную точку для последующего итеративного улучшения моделей посредством соревновательного самообучения. Датасет AOT-SFT обеспечивает наличие размеченных данных, необходимых для обучения обеих моделей распознавать и генерировать адверсарные примеры, что критически важно для эффективности всего процесса обучения.

Модель-Атакующий (Attacker Model) специально разработана для генерации атакующих примеров (Adversarial Examples), представляющих собой слегка измененные входные данные, предназначенные для намеренного введения в заблуждение модели-Защитника (Defender Model). Эти примеры создаются путем применения небольших, целенаправленных возмущений к исходным данным, которые не воспринимаются человеческим глазом, но способны вызвать ошибки в классификации со стороны модели-Защитника. Генерация атакующих примеров осуществляется посредством оптимизационных алгоритмов, направленных на максимизацию потерь модели-Защитника при минимальном изменении входного изображения. Эффективность модели-Атакующего оценивается по ее способности успешно обмануть модель-Защитника и снизить точность ее предсказаний.

Итеративный алгоритм совместной эволюции атакующей и защищающей моделей, основанный на двух взаимосвязанных циклах обучения, позволяет последовательно улучшать способности обеих сторон: атакующий агент <span class="katex-eq" data-katex-display="false">M_{atk}^{(N)}</span> совершенствуется с помощью Flow-GRPO, обманывая предыдущую версию защищающей модели <span class="katex-eq" data-katex-display="false">M_{def}^{(N-1)}</span> и получая награду за эффективность, а затем обновлённый атакующий генерирует сложные примеры для обучения текущей версии защищающей модели <span class="katex-eq" data-katex-display="false">M_{def}^{(N)}</span> с использованием DAPO и награды за точность.
Итеративный алгоритм совместной эволюции атакующей и защищающей моделей, основанный на двух взаимосвязанных циклах обучения, позволяет последовательно улучшать способности обеих сторон: атакующий агент M_{atk}^{(N)} совершенствуется с помощью Flow-GRPO, обманывая предыдущую версию защищающей модели M_{def}^{(N-1)} и получая награду за эффективность, а затем обновлённый атакующий генерирует сложные примеры для обучения текущей версии защищающей модели M_{def}^{(N)} с использованием DAPO и награды за точность.

Генерация Семантически Согласованных Состязательных Примеров

Атакующая модель формирует противники примеры, используя техники редактирования изображений, управляемые алгоритмом оптимизации политики Flow-GRPO. Flow-GRPO позволяет итеративно изменять входное изображение, стремясь к максимальному влиянию на классификатор, при этом поддерживая правдоподобность изменений. Алгоритм основан на градиентном спуске, но использует стохастические методы для повышения эффективности и избежания локальных минимумов. В процессе формирования противника примера, Flow-GRPO оценивает влияние каждого изменения пикселя на выход классификатора и оптимизирует стратегию редактирования для достижения целевой ошибки классификации.

Для сохранения семантической целостности изображений при генерации состязательных примеров используется проверка SSIM (Structural Similarity Index). Данный метод позволяет оценить структурное сходство между исходным и модифицированным изображениями, обеспечивая минимальные изменения в восприятии контента человеком. В процессе атаки, SSIM-метрика вычисляется для оценки степени искажения изображения после каждой манипуляции. Если значение SSIM опускается ниже заданного порога, модификация отклоняется, что гарантирует, что состязательные изменения не приводят к существенному изменению визуального содержания или смысла изображения. Использование SSIM способствует созданию более реалистичных и менее заметных состязательных примеров.

Модель OneReward используется для увеличения объема обучающей выборки, предоставляя дополнительные данные как для модуля-атаки (Attacker), так и для модуля-защиты (Defender). Этот подход позволяет улучшить обобщающую способность обеих моделей, повышая их устойчивость к различным типам атак и обеспечивая более надежную защиту. Генерация дополнительных данных осуществляется с целью создания более разнообразного и репрезентативного набора примеров, что способствует более эффективному обучению и повышает производительность системы в целом. Использование расширенного набора данных позволяет снизить риск переобучения и повысить устойчивость к непредсказуемым сценариям.

В качестве базовой архитектуры для как атакующей, так и защищающей сторон используется модель Qwen2.5-VL. Это обеспечивает согласованность обучения обеих моделей, поскольку они разделяют общую структуру и параметры. Использование единой архитектуры упрощает процесс разработки и позволяет проводить более эффективное сравнение производительности атакующей и защищающей сторон. Модель Qwen2.5-VL, будучи мультимодальной, способна обрабатывать как визуальную информацию (изображения), так и текстовые данные, что критически важно для задач генерации и обнаружения состязательных примеров.

Для создания датасета AOT-SFT используется двухэтапный процесс: на первом этапе исходное изображение расширяется с помощью MLLM и проходит фильтрацию по композиции, дубликатам и реалистичности, а на втором - MLLM генерирует семантические отвлекающие элементы, которые внедряются в отфильтрованные изображения, после чего проверяется эффективность атаки на модель-защитник, и только успешные примеры включаются в датасет.
Для создания датасета AOT-SFT используется двухэтапный процесс: на первом этапе исходное изображение расширяется с помощью MLLM и проходит фильтрацию по композиции, дубликатам и реалистичности, а на втором — MLLM генерирует семантические отвлекающие элементы, которые внедряются в отфильтрованные изображения, после чего проверяется эффективность атаки на модель-защитник, и только успешные примеры включаются в датасет.

Улучшенное Пространственное Рассуждение и Оценка Устойчивости

Экспериментальные данные демонстрируют значительное улучшение в области мелкозернистого пространственного восприятия, позволяющее модели Defender с высокой точностью интерпретировать сложные визуальные сцены. Эта способность позволяет ей не просто распознавать объекты, но и понимать их взаиморасположение, размеры и относительные позиции с высокой степенью детализации. Повышенная точность в понимании пространственных отношений критически важна для решения широкого спектра задач, включая навигацию, робототехнику и анализ изображений, где точное определение положения объектов является ключевым фактором успеха. Улучшенное пространственное восприятие делает модель Defender более надежной и эффективной в ситуациях, требующих анализа сложных визуальных данных.

Модель “Defender”, обученная с использованием подхода AOT, демонстрирует превосходную устойчивость к высокоразрешающим враждебным атакам, что подтверждается результатами тестирования на бенчмарке HRBench. В частности, достигнута точность в 72.38% на HRBench-4K, что на 8.26 процентных пункта выше, чем у базовой модели. Аналогично, на HRBench-8K точность составила 71.50%, что также превышает показатель базовой модели на 6.62 процентных пункта. Эти результаты указывают на значительное улучшение способности модели корректно интерпретировать сложные визуальные сцены даже при наличии намеренных искажений высокого разрешения, что критически важно для надежных приложений машинного зрения.

Для дальнейшей оценки и совершенствования способности модели “Defender” к пространственному мышлению использовался датасет “VStar”. В результате тестирования на этом наборе данных, модель продемонстрировала точность в 80.25%, что на 9.24 процентных пункта выше, чем у базовой модели. Этот значительный прирост указывает на эффективность предложенных методов в улучшении понимания сложных пространственных взаимосвязей и повышении общей надежности системы в задачах, требующих точной интерпретации визуальной информации.

Внедрение AOT-фреймворка значительно снижает вероятность возникновения “галлюцинаций” в мультимодальных больших языковых моделях (MLLM), что подтверждается увеличением точности на HallusionBench на 1.68%. Это позволяет создавать более надежные и заслуживающие доверия системы, способные к более адекватной интерпретации и генерации контента. Наблюдаемые улучшения в показателях POPE F1-score (на 2.88 пункта) и точности MMMU (на 4.66 пункта) свидетельствуют о повышенной способности модели к точному пониманию контекста и решению сложных задач, требующих логического вывода и анализа.

Наш двухэтапный конвейер для генерации состязательного набора данных SFT сначала расширяет исходное изображение с помощью аутпеинтинга для повышения визуальной сложности и последующей фильтрации по композиции, дублированию и реалистичности, а затем внедряет семантические отвлекающие элементы, валидируя их на предмет пространственного перекрытия и семантического дублирования, и добавляет изображение в набор данных SFT только в случае, если внедренный отвлекающий элемент вызывает ошибку в целевой MLLM.
Наш двухэтапный конвейер для генерации состязательного набора данных SFT сначала расширяет исходное изображение с помощью аутпеинтинга для повышения визуальной сложности и последующей фильтрации по композиции, дублированию и реалистичности, а затем внедряет семантические отвлекающие элементы, валидируя их на предмет пространственного перекрытия и семантического дублирования, и добавляет изображение в набор данных SFT только в случае, если внедренный отвлекающий элемент вызывает ошибку в целевой MLLM.

Исследование демонстрирует, что создание надежных мультимодальных больших языковых моделей требует не просто увеличения объема данных, но и продуманного подхода к формированию учебной программы. Авторы предлагают метод состязательного самообучения, где модель учится, противостоя своим же, намеренно искаженным версиям. Этот процесс напоминает эволюцию, где выживают наиболее устойчивые к воздействиям варианты. Как заметила Ада Лавлейс: «То, что может быть выражено в форме алгоритма, может быть сделано машиной». В данном случае, алгоритм состязательного обучения позволяет автоматически генерировать сложные примеры, которые помогают модели стать более устойчивой к перцептивным уязвимостям и, следовательно, более надежной в реальных условиях. Подобный подход подтверждает, что структура обучения определяет поведение модели, а простота и ясность в алгоритме — ключ к эффективному решению сложной задачи.

Что Дальше?

Представленная работа демонстрирует изящную, хотя и не лишенную парадоксов, логику: чтобы научить систему видеть истину, необходимо научить ее обманывать. Этот подход, основанный на состязательном самообучении, открывает путь к созданию более устойчивых мультимодальных больших языковых моделей. Однако, стоит признать, что повышение робастности — это лишь одна грань проблемы. Устойчивость к враждебным атакам не гарантирует понимания, а лишь свидетельствует о способности системы поддерживать иллюзию понимания даже в неблагоприятных условиях.

Очевидным направлением для дальнейших исследований является расширение спектра состязательных сценариев. Простая генерация возмущений недостаточна; необходима разработка “противников”, способных к адаптации и эволюции, моделирующих не просто ошибки восприятия, но и намеренные попытки манипуляции. Более того, важно учитывать не только визуальные, но и другие модальности, и исследовать возможности кросс-модальных атак и защиты.

В конечном итоге, вопрос заключается не в том, насколько хорошо система может противостоять атакам, а в том, насколько хорошо она понимает мир. Робастность — это лишь необходимое, но недостаточное условие для достижения истинного интеллекта. Поиск архитектур, способных к глубокому, причинно-следственному рассуждению, остается центральной задачей, требующей не просто улучшения существующих методов, но и переосмысления самой концепции “понимания”.


Оригинал статьи: https://arxiv.org/pdf/2602.22227.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-28 02:10