Невидимые помехи: Как обмануть объяснимый ИИ

Автор: Денис Аветисян


Новое исследование показывает, что даже незначительные изменения в изображениях могут исказить интерпретации, предоставляемые методами объяснимого искусственного интеллекта, не влияя на точность предсказаний.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Процедура преднамеренного искажения объяснений классификатора заключается в замене части признаков исходного изображения (например, собаки) на признаки из другого класса (кошки), при этом маскировка осуществляется на основе наиболее значимых признаков атакующего изображения, а финальное, визуально неотличимое от оригинала, изображение формируется путем взвешенной суммы исходного и модифицированного вариантов, что позволяет изменить объяснения модели без привлечения внимания наблюдателя.
Процедура преднамеренного искажения объяснений классификатора заключается в замене части признаков исходного изображения (например, собаки) на признаки из другого класса (кошки), при этом маскировка осуществляется на основе наиболее значимых признаков атакующего изображения, а финальное, визуально неотличимое от оригинала, изображение формируется путем взвешенной суммы исходного и модифицированного вариантов, что позволяет изменить объяснения модели без привлечения внимания наблюдателя.

Атака eXIAA выявляет уязвимости в существующих подходах к интерпретации моделей машинного обучения, демонстрируя возможность манипулирования объяснениями без изменения результатов предсказаний.

Несмотря на растущую популярность методов объяснимого искусственного интеллекта (XAI), их надежность в критически важных приложениях остается под вопросом. В данной работе, ‘eXIAA: eXplainable Injections for Adversarial Attack’, представлен новый «черный ящик» метод атаки, способный незаметно изменять изображения таким образом, чтобы исказить объяснения, генерируемые методами XAI, не влияя при этом на точность предсказаний модели. Эксперименты с ResNet-18 и ViT-B16 на ImageNet показали, что предложенная атака может существенно изменить атрибуцию признаков, оставаясь незамеченной для человека. Не ставит ли это под сомнение доверие к современным методам объяснения и требует ли это разработки более устойчивых подходов к интерпретации моделей машинного обучения?


Иллюзия Объяснимости: Уязвимости Современных Моделей ИИ

Современные модели глубокого обучения, несмотря на свою впечатляющую эффективность в решении сложных задач, часто функционируют как так называемые «чёрные ящики». Это означает, что внутренние механизмы принятия решений остаются непрозрачными и трудно интерпретируемыми. Отсутствие понимания того, как модель пришла к конкретному выводу, серьёзно подрывает доверие к ней, особенно в критически важных областях, таких как медицина, финансы или правосудие. Невозможность объяснить логику работы алгоритма также препятствует привлечению к ответственности в случае ошибочных или предвзятых решений, что создает значительные этические и практические проблемы. Непрозрачность этих систем требует разработки новых методов и подходов, направленных на повышение их объяснимости и, как следствие, укрепление доверия и обеспечение ответственности.

В ответ на проблему непрозрачности глубоких нейронных сетей, которые часто функционируют как «чёрные ящики», возникла концепция объяснимого искусственного интеллекта (XAI). Данный подход направлен на повышение доверия и ответственности алгоритмов, предоставляя инструменты для понимания процессов принятия решений. Одним из ключевых методов XAI является аттрибуция признаков (Feature Attribution), позволяющая определить, какие входные данные оказывали наибольшее влияние на результат работы модели. Анализируя вклад каждого признака, исследователи и пользователи могут получить представление о логике работы алгоритма, выявить потенциальные смещения и обеспечить более обоснованные и контролируемые результаты. Вместо того чтобы просто полагаться на предсказания, XAI стремится раскрыть внутреннюю работу модели, делая её более понятной и доступной для анализа.

Несмотря на стремление к прозрачности, системы объяснимого искусственного интеллекта (XAI) оказались подвержены новым уязвимостям. Исследования показали, что злоумышленники могут намеренно манипулировать объяснениями, предоставляемыми моделями машинного обучения, изменяя их до значительной степени. Данные изменения, продемонстрированные на рисунках 2, 3, 4, 5, А.1 и в таблицах в приложении, указывают на то, что полагаться исключительно на эти объяснения для обеспечения безопасности и надежности системы может быть ошибочно. Возможность влияния на интерпретацию решений модели ставит под вопрос доверие к XAI как инструменту контроля и открывает двери для целенаправленных атак, направленных на обман или дестабилизацию системы.

Изменение объяснений при различных значениях параметра α показывает, что выбор оптимального значения может значительно влиять на стабильность и согласованность результатов, при этом dotted lines указывают на базовый уровень производительности для каждого α.
Изменение объяснений при различных значениях параметра α показывает, что выбор оптимального значения может значительно влиять на стабильность и согласованность результатов, при этом dotted lines указывают на базовый уровень производительности для каждого α.

Маскировка Истинных Причин: Атаки на Объяснения Моделей ИИ

Традиционно, состязательные атаки (adversarial attacks) были направлены на изменение предсказаний моделей машинного обучения. Однако, современная тенденция заключается в расширении области атак на сами объяснения, генерируемые методами объяснимого искусственного интеллекта (XAI). Это означает, что злоумышленник стремится не к неправильному результату работы модели, а к искажению интерпретации причин, по которым модель пришла к данному выводу. Вместо манипуляции входными данными для изменения предсказания, атака направлена на изменение значимости признаков, выделяемых XAI, что позволяет ввести пользователя в заблуждение относительно логики работы модели, даже если предсказание остается верным.

Атакующие действия направлены на внесение незначительных, тщательно продуманных возмущений в входные данные, что приводит к изменению объяснений, генерируемых методами XAI, без существенного влияния на точность предсказаний модели. Согласно проведенным исследованиям, снижение уверенности предсказания в большинстве случаев не превышает 10%, что подтверждается данными, представленными на рисунке 4. Данный подход позволяет манипулировать интерпретируемостью модели, сохраняя при этом видимую корректность ее работы.

Атаки на объяснения моделей машинного обучения представляют серьезную угрозу, поскольку они могут вводить пользователей в заблуждение относительно поведения модели и вызывать необоснованное доверие к ошибочным рассуждениям. Наш подход демонстрирует превосходство над базовыми методами проведения атак, особенно в отношении архитектур, основанных на трансформаторах, и при стратегическом отборе атакующих изображений. Это позволяет эффективно манипулировать объяснениями, генерируемыми методами XAI, без существенного снижения точности предсказаний модели, что может привести к принятию неправильных решений на основе ложных интерпретаций.

Изменение уверенности предсказанного класса для исходного и поврежденного изображений показывает схожую структуру с данными, представленными на рисунке 2.
Изменение уверенности предсказанного класса для исходного и поврежденного изображений показывает схожую структуру с данными, представленными на рисунке 2.

Методы Атак и Оценка Устойчивости Объяснений

Атаки «черного ящика» (Black-Box Attack) и модель-агностические атаки (Model-Agnostic Attack) демонстрируют возможность успешного воздействия на модели объяснимого искусственного интеллекта (XAI) даже при отсутствии полного доступа к их внутренней структуре и параметрам. Это означает, что злоумышленник может разработать атаку, не зная архитектуру, веса или обучающие данные целевой модели. Эффективность таких атак подчеркивает уязвимость современных методов XAI к манипуляциям, основанным на внешних наблюдениях и не требующих детального анализа модели. Возможность проведения успешных атак без знания внутренней структуры модели существенно расширяет потенциальную область угроз для систем, использующих объяснимый ИИ.

Методы атак, осуществляемых за один шаг (One-Step Attacks), позволяют эффективно изменять объяснения, генерируемые моделями машинного обучения, при минимальных изменениях входных данных. Данные атаки демонстрируют, что даже незначительные возмущения могут приводить к существенным изменениям в объяснениях, что указывает на уязвимость существующих методов объяснимого искусственного интеллекта (XAI). Эффективность данных методов заключается в их способности быстро и с небольшими затратами вычислительных ресурсов модифицировать объяснения, подчеркивая необходимость разработки более надежных и устойчивых к атакам техник XAI. Фактически, минимальное возмущение входных данных, достаточное для изменения объяснения, свидетельствует о недостаточной робастности современных XAI-методов к злонамеренным воздействиям.

Оценка успешности атаки на объяснимость строится на измерении изменений как в объяснениях, так и в предсказаниях модели. Наши эксперименты демонстрируют значительное процентное изменение в объяснениях (данные представлены на рисунках 2, 3, 4, 5, A.1 и в таблицах в приложении), при этом сохраняется высокая точность предсказаний модели. Это указывает на возможность существенного влияния на интерпретацию работы модели без снижения ее эффективности, что подчеркивает хрупкость современных методов объяснимого искусственного интеллекта (XAI) и необходимость разработки более устойчивых к атакам подходов.

Скрытность предложенной атаки подтверждается высокими значениями SSIM (Structural Similarity Index), демонстрирующими незначительную визуальную разницу между исходными и модифицированными изображениями. Значения SSIM, близкие к 1, указывают на практически идентичное восприятие изображений человеком и алгоритмами обработки изображений, что свидетельствует о минимальном визуальном искажении, вносимом атакой. Это означает, что атакующие могут успешно манипулировать объяснениями моделей без заметного изменения входных данных, что делает атаку труднообнаружимой и повышает её эффективность. На рисунке 3 представлены результаты визуального сравнения, подтверждающие минимальные визуальные отличия.

Контекст Угрозы: Модели, Данные и Перспективы Развития

Широко используемые модели глубокого обучения, такие как ResNet-18 и ViT-B16, обученные на обширных наборах данных, вроде ImageNet, оказываются уязвимыми к манипулированию объяснениями их решений. Исследования показывают, что даже незначительные, намеренно внесенные изменения во входные данные могут существенно исказить визуализации, демонстрирующие, какие части изображения модель считает наиболее важными для принятия решения. Это означает, что полагаться исключительно на такие объяснения, например, для обеспечения прозрачности или выявления предвзятости, может быть ошибочно. Уязвимость связана с тем, что модели часто учатся находить корреляции, а не причинно-следственные связи, что делает их восприимчивыми к “обману” с помощью специально разработанных входных данных, не влияющих на фактический результат, но изменяющих объяснение.

Стратегия “Running-Up Class” представляет собой метод создания целенаправленных возмущений, которые специально искажают атрибуции признаков в моделях машинного зрения. Суть подхода заключается в поиске минимальных изменений входного изображения, приводящих к максимальному увеличению активации определенного класса, что, в свою очередь, приводит к существенному изменению объяснений, генерируемых методами объяснимого искусственного интеллекта (XAI). Вместо того, чтобы просто пытаться заставить модель ошибаться в классификации, данная стратегия направлена на манипулирование внутренним представлением изображения, изменяя, какие признаки модель считает наиболее важными для принятия решения. Это позволяет исследователям выявить уязвимости в существующих методах XAI и разработать более надежные подходы к интерпретации работы нейронных сетей, поскольку искаженные атрибуции признаков могут ввести в заблуждение относительно истинных причин, лежащих в основе решения модели.

Для повышения надежности объяснений в системах искусственного интеллекта необходима разработка более устойчивых методов объяснимого ИИ (XAI). Существующие подходы часто оказываются уязвимыми к манипуляциям, что ставит под сомнение их достоверность. Решением является внедрение стратегий состязательного обучения, при которых модели намеренно подвергаются воздействию искаженных данных в процессе обучения. Это позволяет им научиться игнорировать нерелевантные признаки и фокусироваться на действительно важных аспектах, делая объяснения более устойчивыми к атакам и повышая доверие к принятым решениям. Такой подход способствует созданию систем, способных не только правильно функционировать, но и предоставлять прозрачные и надежные объяснения своих действий.

Предложенный подход продемонстрировал превосходство над существующими методами атак на объяснимый искусственный интеллект (XAI), особенно в контексте архитектур, основанных на трансформерах. Эффективность достигается за счет стратегического отбора атакующих изображений, что позволяет существенно исказить атрибуции признаков и, как показывают результаты, представленные на рисунках 2, 3, 4, 5 и в приложении A.1, а также в таблицах, значительно превзойти базовые уровни атак. Данные результаты указывают на уязвимость современных моделей XAI и необходимость разработки более надежных и устойчивых к манипуляциям методов объяснения, способных обеспечивать достоверную интерпретацию решений.

Сравнение среднего и стандартного отклонения при использовании изображений из класса
Сравнение среднего и стандартного отклонения при использовании изображений из класса «бег» (сплошная линия) и усредненных по всем остальным классам (пунктирная линия) на наборе данных CIFAR10 с использованием ResNet-18 и различных методов объяснения показывает, что вычислительная сложность масштабируется линейно с количеством классов, что делает применение данного подхода к набору данных ImageNet непрактичным.

Исследование демонстрирует, что даже незначительные возмущения в данных могут привести к искажению объяснений, генерируемых методами XAI, при этом основная точность модели остается неизменной. Это подчеркивает хрупкость существующих подходов к интерпретируемости и необходимость разработки более устойчивых механизмов объяснения. Как однажды заметил Джон Маккарти: «Всякий, кто рассматривает сложность, должен начать с простого». Эта мысль находит отражение в стремлении к созданию прозрачных и понятных моделей, способных предоставлять достоверные объяснения своих решений. Работа показывает, что версионирование объяснений, подобно версионированию кода, становится критически важным для отслеживания и выявления потенциальных уязвимостей в интерпретируемости моделей.

Что дальше?

Представленная работа, демонстрируя возможность манипулирования объяснениями, а не самим предсказанием, обнажает фундаментальную уязвимость в текущем подходе к интерпретируемому искусственному интеллекту. Каждый сбой – это сигнал времени, указывающий на то, что надежда создать надежную и прозрачную систему, опирающуюся исключительно на пост-хок объяснения, может быть иллюзорной. Недостаточно просто увидеть, что модель предсказывает; необходимо понимать, почему она это делает, и убедиться, что это «почему» не подвержено тонким, но разрушительным искажениям.

Перспективы исследований лежат в плоскости разработки методов, устойчивых к подобным атакам. Рефакторинг – это диалог с прошлым, и необходимо пересмотреть принципы построения объяснений, возможно, интегрируя интерпретируемость непосредственно в архитектуру моделей. Следует исследовать возможность создания «самообъясняющихся» систем, где прозрачность является неотъемлемой частью их функционирования, а не надстройкой, добавленной после.

Время – это не метрика, а среда, в которой существуют системы. В конечном итоге, задача заключается не в создании идеальных объяснений, а в признании их неизбежной неполноты и в разработке механизмов, позволяющих оценивать и учитывать эту неполноту при принятии решений. В противном случае, мы рискуем построить иллюзию понимания, которая рухнет в самый неподходящий момент.


Оригинал статьи: https://arxiv.org/pdf/2511.10088.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-16 01:40