Иллюзии и обходные пути: Как метафоры взламывают генераторы изображений

Автор: Денис Аветисян

Новое исследование демонстрирует, что использование образных выражений позволяет обходить встроенные фильтры безопасности в моделях, создающих изображения по текстовому описанию.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Предложенный подход вдохновлен игрой в «Табу», где один игрок описывает понятие метафорически, косвенно передавая его смысл другому; в данном случае, большая языковая модель выступает в роли первого игрока, а модель преобразования текста в изображение - во втором, что позволяет осуществить обход ограничений безопасности системы. — Предложенный подход вдохновлен игрой в «Табу», где один игрок описывает понятие метафорически, косвенно передавая его смысл другому; в данном случае, большая языковая модель выступает в роли первого игрока, а модель преобразования текста в изображение — во втором, что позволяет осуществить обход ограничений безопасности системы.

В статье представлена методика MJA, использующая большие языковые модели для генерации метафорических запросов, способных обходить системы защиты и вызывать генерацию нежелательного контента.

Несмотря на встроенные механизмы защиты, генеративные тексто-в-изображение модели остаются уязвимыми к нежелательному контенту. В работе, озаглавленной ‘Metaphor-based Jailbreaking Attacks on Text-to-Image Models’, представлен новый метод атак — MJA, использующий метафорические запросы для обхода существующих систем защиты без предварительного знания об их структуре. Разработанный подход, основанный на взаимодействии нескольких языковых моделей, позволяет эффективно генерировать запросы, способные обойти как внешние, так и внутренние защитные механизмы. Может ли подобный подход стать основой для разработки более надежных и адаптивных систем безопасности в генеративных моделях?

Пророчество Уязвимости: Текстовые Модели и Скрытые Риски

Современные текстово-графические модели, обладая впечатляющими возможностями, оказываются уязвимыми к генерации нежелательного контента при использовании тщательно сформулированных запросов. Исследования показывают, что даже незначительные манипуляции с текстом, так называемые “промпт-инъекции”, способны обойти встроенные механизмы безопасности и заставить модель создавать изображения, содержащие насилие, дезинформацию или оскорбительный контент. Эта уязвимость связана с тем, что модели, обученные на огромных массивах данных, не всегда способны адекватно интерпретировать намерения пользователя и различать безобидные и вредоносные запросы, что требует разработки более сложных и эффективных методов контроля и фильтрации генерируемого контента.

Существующие механизмы защиты моделей преобразования текста в изображения часто оказываются неэффективными, основываясь преимущественно на фильтрации по ключевым словам или поверхностном сопоставлении с шаблонами. Исследования показывают, что злоумышленники способны обходить такие барьеры, используя тонкие манипуляции с формулировками запросов, синонимы или косвенные описания, что позволяет генерировать нежелательный контент, несмотря на действующие ограничения. Данный подход, ориентированный на явные признаки, не учитывает контекст и креативность, присущие языку, и поэтому оказывается уязвимым перед более изощренными атаками, требуя разработки принципиально новых стратегий защиты, способных анализировать смысл запроса, а не только его лексическое наполнение.

В связи с присущей уязвимостью моделей преобразования текста в изображение, разработка новых стратегий атак и защиты представляется необходимостью для обеспечения ответственного развития искусственного интеллекта. Существующие подходы, часто полагающиеся на поверхностную фильтрацию или сопоставление шаблонов, оказываются неэффективными против изощренных манипуляций с запросами. Поэтому, для минимизации рисков, связанных с генерацией вредоносного контента, требуется переход к более глубокому пониманию механизмов уязвимости и разработке принципиально новых методов защиты, способных адаптироваться к постоянно меняющимся тактикам атак. Такой подход позволит не только снизить вероятность создания нежелательного контента, но и повысить доверие к технологиям генеративного ИИ, способствуя их безопасному и этичному внедрению в различные сферы жизни.

Модель MJA, используя метафору и контекст, преобразует чувствительные запросы в состязательные, что демонстрируется на примере Stable Diffusion V1.4 с фильтрами text-cls и image-clip.

Метафора как Оружие: Атака MJA и Обход Защит

Атака обхода ограничений безопасности MJA (Metaphor Jailbreaking Attack) использует непрямые формулировки и контекстуальную интерпретацию для обхода фильтров безопасности языковых моделей. Вместо прямого запроса на выполнение запрещенного действия, MJA формирует запрос, описывающий концепцию метафорически или косвенно, что позволяет обойти системы обнаружения, основанные на сопоставлении ключевых слов или прямых указаний. При этом, успешность атаки зависит от способности модели интерпретировать контекст и уловить скрытый смысл запроса, что позволяет обойти ограничения, предназначенные для блокировки прямолинейных и очевидных попыток обхода.

Метод MJA, вдохновленный правилами игры в слова «Табу», использует метафорическое представление запрещенных или чувствительных тем для обхода систем фильтрации. Вместо прямого упоминания нежелательного контента, MJA формулирует запросы, описывающие концепцию косвенно, через аналоги и образные выражения. Такой подход затрудняет обнаружение вредоносных намерений наивными детекторами, поскольку они не способны сопоставить метафорическое описание с исходным запрещенным понятием. Фактически, MJA эксплуатирует способность больших языковых моделей (LLM) понимать и интерпретировать неявные смыслы, в то время как простые фильтры, основанные на ключевых словах, оказываются неэффективными.

Атака MJA использует генерацию разнородных запросов на основе многоагентного подхода, применяя несколько больших языковых моделей (LLM) для создания различных вариантов вредоносных запросов. Этот метод позволяет обойти фильтры безопасности, так как каждый агент генерирует запросы, используя различные стратегии и формулировки. Множество сгенерированных запросов увеличивает вероятность успешной атаки, поскольку даже если некоторые запросы блокируются, другие могут пройти через систему защиты. Многоагентная генерация обеспечивает более широкое покрытие пространства возможных атак по сравнению с использованием единственной модели или фиксированного набора запросов.

Предложенный фреймворк MJA, состоящий из модулей генерации состязательных запросов на основе больших языковых моделей (LMAG) и оптимизации состязательных запросов (APO), итеративно генерирует и уточняет запросы, используя специализированных агентов и суррогатную модель для эффективной атаки на модели преобразования текста в изображение.

Оптимизация Состязательности: Поиск Слабых Мест в Защите

Методика MJA использует оптимизацию состязательных запросов (Adversarial Prompt Optimization) для выявления наиболее эффективных запросов, способных обходить системы защиты тексто-в-изображение моделей. Этот процесс предполагает автоматизированный поиск и модификацию запросов с целью максимизации вероятности генерации нежелательного контента, несмотря на наличие защитных механизмов. Оптимизация включает в себя итеративную процедуру, направленную на обнаружение “слабых мест” в системе защиты и использование их для создания запросов, которые успешно обходят фильтры и ограничения. Целью является повышение эффективности атак и снижение затрат на их проведение, что достигается за счет автоматизации процесса поиска оптимальных запросов.

Оптимизация атак на генеративные модели изображений с использованием MJA включает в себя применение суррогатной модели для прогнозирования успешности промптов. Вместо многократных запросов к целевой модели T2I (Text-to-Image), что является ресурсоемким и может быть обнаружено системами защиты, суррогатная модель оценивает вероятность успешной генерации нежелательного контента для каждого промпта. Это позволяет значительно сократить количество необходимых запросов к целевой модели, повышая эффективность атаки и снижая риск блокировки. Суррогатная модель обучается на данных, полученных в результате ограниченного числа запросов к целевой модели, и используется для предварительной фильтрации промптов, выбирая наиболее перспективные для дальнейшего тестирования и уточнения.

Стратегия приобретения (Acquisition Strategy) в MJA направлена на эффективный отбор перспективных запросов для тестирования, что позволяет максимизировать производительность и вероятность успешного обхода защитных механизмов. Вместо случайного перебора, MJA использует суррогатную модель для предсказания вероятности успеха запроса, что позволяет приоритизировать тестирование наиболее многообещающих вариантов. Такой подход значительно сокращает количество необходимых запросов к целевой T2I модели, повышая общую эффективность атаки и снижая вычислительные затраты. В ходе экспериментов было установлено, что MJA требует в среднем 11 ± 8 запросов, что существенно меньше, чем 19 ± 19 запросов, необходимых для итеративных базовых атак.

Тестирование MJA на модели InternVL2-8B показало способность генерировать контент, неприемлемый для пользователей (NSFW), несмотря на активные механизмы защиты. Средний показатель обхода защиты (bypass rate) составил 0.98, а средний коэффициент успешности атаки (attack success rate) — 0.76, применительно к различным конфигурациям защитных настроек. Данные результаты демонстрируют высокую эффективность MJA в преодолении существующих мер безопасности при генерации контента.

В ходе тестирования, методика MJA продемонстрировала показатель ASR-MLLM (Attack Success Rate — Multi-Level Language Model) в 0.79. При этом, для достижения успешной атаки, в среднем потребовалось 11 ± 8 запросов к целевой модели. Это значительно эффективнее, чем у итеративных базовых методов, которым для достижения аналогичного результата требовалось в среднем 19 ± 19 запросов. Данные показатели свидетельствуют о более высокой скорости и эффективности MJA в обходе защитных механизмов и генерации целевого контента.

Оптимизированные промпты, полученные в ходе экспериментов, демонстрируют повышенную семантическую согласованность генерируемых изображений. Это подтверждается более низкими значениями метрики Frechet Inception Distance (FID) по сравнению с базовыми методами атаки. Более низкий показатель FID указывает на то, что сгенерированные изображения статистически ближе к реальным изображениям, что свидетельствует о более высоком качестве и реалистичности, а также о большей когерентности между промптом и полученным результатом. Данный показатель позволяет объективно оценить, насколько хорошо сгенерированное изображение соответствует ожидаемому содержанию, заданному в промпте.

Сравнение производительности MJA и базовых методов при внешних и внутренних защитах по показателям BR, ASR-C, ASR-MLLM и FID демонстрирует превосходство MJA, однако внутренние механизмы защиты оказались неэффективны против чувствительных входных данных, что привело к 100% обходу защиты.

Эволюция Безопасности ИИ: От Фильтрации к Пониманию Намерений

Исследования, проведенные в рамках MJA, выявили существенные ограничения современных механизмов защиты систем искусственного интеллекта. Существующие подходы зачастую полагаются на поверхностное сопоставление с шаблонами, что делает их уязвимыми перед целенаправленными атаками, известными как adversarial attacks. Такие атаки демонстрируют, что незначительные, едва заметные изменения во входных данных могут обмануть систему ИИ, заставив её дать ошибочный результат или выполнить нежелательное действие. Это подчеркивает необходимость разработки более надежных и глубоких методов защиты, способных понимать истинный смысл запроса, а не просто распознавать ключевые слова или фразы.

Атака, демонстрирующая уязвимость современных систем искусственного интеллекта, подчеркивает необходимость перехода к более надежным стратегиям защиты. Традиционные методы, основанные на обнаружении поверхностных закономерностей, легко обходятся злоумышленниками. В связи с этим, возрастает значимость внутренних механизмов защиты, таких как “Стирание Концепций” (Concept Erasure). Данный подход предполагает не просто блокировку нежелательного контента, а целенаправленное удаление из модели знаний, связанных с опасными или нежелательными темами. Вместо анализа конкретных ключевых слов, система учится игнорировать саму суть потенциально вредоносных запросов, что значительно повышает ее устойчивость к различным видам атак и обеспечивает более надежную защиту от неправомерного использования.

Исследования в области безопасности искусственного интеллекта всё чаще указывают на необходимость перехода от поверхностного анализа запросов к пониманию истинных намерений пользователя. Современные системы часто полагаются на обнаружение ключевых слов, что делает их уязвимыми к манипуляциям. Будущие разработки должны быть направлены на создание ИИ, способного интерпретировать смысл и цель запроса, а не просто сопоставлять его с известными шаблонами. Такой подход позволит значительно повысить устойчивость систем к манипуляциям и обеспечить более безопасное взаимодействие с пользователем, особенно в критически важных приложениях. Понимание намерений потребует внедрения более сложных моделей обработки естественного языка, учитывающих контекст, семантику и даже потенциальные скрытые мотивы, стоящие за запросом.

Для создания по-настоящему креативного и безопасного искусственного интеллекта необходимы углубленные исследования в области метафор и контекстуального мышления. Современные системы зачастую испытывают трудности с пониманием неявных смыслов и переносных значений, что делает их уязвимыми к манипуляциям и нежелательным интерпретациям. Способность к распознаванию и корректному применению метафор, а также учет широкого контекста запроса, позволит ИИ не просто реагировать на ключевые слова, но и понимать намерение пользователя, отделяя безобидные запросы от потенциально опасных. Развитие этих навыков — ключевой шаг к созданию ИИ, способного к гибкому и безопасному взаимодействию с миром, а также к генерации действительно оригинальных и осмысленных решений. Дальнейшие исследования в этой области должны быть направлены на создание алгоритмов, способных моделировать человеческое понимание языка и контекста, что позволит ИИ не только понимать, что говорится, но и зачем.

Сравнение MJA с шестью базовыми методами по показателям BR, ASR-C, ASR-MLLM и FID при внешних и внутренних атаках демонстрирует превосходство MJA, что подтверждается более высокими значениями показателей (за исключением FID), усредненными по четырем чувствительным категориям.

Исследование уязвимостей текстовых моделей, генерирующих изображения, демонстрирует, что системы — это не просто инструменты, а развивающиеся экосистемы. Авторы статьи, исследуя возможности обхода защитных механизмов посредством метафорических запросов, показывают, что даже самые продуманные архитектурные решения содержат пророчества о будущих сбоях. Подобно тому, как сложно предсказать поведение сложной системы, трудно заранее учесть все возможные способы манипулирования входными данными. Как однажды заметил Дональд Кнут: «Оптимизация — это искусство обманывать себя, чтобы думать, что вы хорошо справились». Эта фраза особенно актуальна в контексте разработки систем безопасности, где иллюзия надежности может быть столь же опасной, как реальная уязвимость.

Куда Ведет Эта Тропа?

Представленные исследования обнажают не столько уязвимость конкретных моделей преобразования текста в изображение, сколько фундаментальную природу любой системы, стремящейся понять и воспроизвести сложность языка. Эти «метафорические взломы» — лишь симптом. Система, обученная на огромном количестве данных, неизбежно находит лазейки, интерпретируя запросы не буквально, а в соответствии со скрытыми ассоциациями. Иллюзия контроля над генерацией изображения — это всегда временное затишье перед бурей.

Вместо того, чтобы бесконечно совершенствовать фильтры и «защитные механизмы», необходимо признать: безопасность — это не состояние, а постоянный процесс адаптации. Следующим шагом видится не столько создание «непробиваемых» моделей, сколько разработка систем, способных к самоанализу и обнаружению нежелательных интерпретаций запросов. Но даже это — лишь отсрочка неизбежного. Система, способная к самоанализу, также способна и к самообману.

В конечном итоге, вопрос не в том, как заблокировать нежелательные изображения, а в том, как научиться понимать, что система хочет создать. Ибо молчание системы — не признак безопасности, а подготовка к неожиданному. Это не ошибка в коде, а предзнаменование. И отладка никогда не закончится — мы просто перестанем смотреть.

Оригинал статьи: https://arxiv.org/pdf/2512.10766.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-15 00:43