Иллюзии Безопасности: Как Нейросети Обходят Классические Алгоритмы

Автор: Денис Аветисян

Новое исследование показывает, что даже тщательно разработанные методы машинного обучения на основе ручных признаков уязвимы к атакам, созданным с помощью нейронных сетей.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Чувствительность классификаторов, основанных на HOG, к величине атак, основанных на возмущениях, демонстрирует разрыв между FGSM и PGD, указывая на уязвимость систем к различным методам генерации противников.

Перенос атак между различными вычислительными парадигмами демонстрирует отсутствие надежной защиты, основанной только на инженерной разработке признаков.

Несмотря на распространенное мнение о повышенной устойчивости классических алгоритмов машинного обучения к adversarial-атакам, данная работа, озаглавленная ‘Adversarial Vulnerability Transcends Computational Paradigms: Feature Engineering Provides No Defense Against Neural Adversarial Transfer’, исследует уязвимость моделей, использующих ручные признаки (HOG), к примерам, сгенерированным глубокими нейронными сетями. Полученные результаты однозначно опровергают гипотезу о защитном эффекте инженерной разработки признаков, демонстрируя значительное снижение точности (до 59.1%) во всех протестированных классификаторах. Более того, выявлена неожиданная инверсия иерархии атак, где FGSM превосходит PGD в классических моделях, что указывает на переобучение итеративных атак к особенностям суррогатной модели. Можно ли разработать эффективные методы защиты, преодолевающие уязвимость, присущую всем системам классификации изображений, независимо от используемой вычислительной парадигмы?

Хрупкость Современных Систем Зрения

Несмотря на впечатляющие достижения в области глубокого обучения, нейронные сети демонстрируют удивительную уязвимость к так называемым «атакующим примерам» — незначительно измененным входным данным, способным вызвать ошибочную классификацию. Эти изменения, зачастую незаметные для человеческого глаза, могут привести к серьезным последствиям в системах, полагающихся на точность анализа изображений, например, в автономном транспорте или медицинских диагностических системах. Исследования показывают, что даже небольшие, намеренные возмущения в пикселях изображения могут полностью изменить решение сети, что свидетельствует о ее зависимости от поверхностных статистических закономерностей, а не от реального понимания визуального контента. Данная уязвимость ставит под сомнение надежность и безопасность подобных систем в критически важных приложениях и требует разработки новых методов защиты от подобных атак.

Уязвимость глубоких нейронных сетей к обману, даже при незначительных изменениях входных данных, вызывает серьезную обеспокоенность в контексте систем, от которых зависит безопасность. Представьте себе автономный транспорт или медицинскую диагностику, где даже единичная ошибка классификации может привести к катастрофическим последствиям. Эта проблема подчеркивает фундаментальную слабость современных систем машинного зрения: они полагаются на статистические закономерности, а не на истинное понимание, что делает их уязвимыми к преднамеренно сконструированным искажениям. Неспособность к надежной работе в непредсказуемых или враждебных условиях ставит под вопрос возможность широкого внедрения этих технологий в критически важные сферы, требуя разработки новых, более устойчивых методов обеспечения безопасности и надежности.

Современные нейронные сети, несмотря на впечатляющие успехи в распознавании образов, зачастую полагаются не на глубокое понимание сути изображений, а на выявление статистических закономерностей в обучающих данных. Это делает их уязвимыми к даже незначительным изменениям во входных данных, которые могут ввести систему в заблуждение. Вместо того чтобы действительно “видеть” объект, сеть идентифицирует его по определенным признакам, которые статистически связаны с определенным классом. Такая зависимость от поверхностных корреляций, а не от семантического понимания, приводит к хрупкости и легкости обмана, что особенно критично в приложениях, требующих высокой надежности и безопасности.

Чувствительность классификаторов, основанных на HOG, к величине атак, основанных на возмущениях, возрастает при увеличении ε с 4/255 до 8/255.

Переносимость Атак: Угроза, Проникающая Сквозь Модели

Ключевой особенностью состязательных примеров является их переносимость — способность обманывать модели, отличные от той, которая использовалась для их генерации. Этот феномен указывает на то, что уязвимость не является специфичной для конкретной архитектуры нейронной сети или процедуры обучения, а представляет собой более общее свойство процесса обучения. Переносимость означает, что состязательный пример, успешно обманывающий одну модель, с высокой вероятностью сможет обмануть и другую, даже если эти модели имеют различные архитектуры, параметры или обучались на разных данных. Данное свойство делает состязательные атаки особенно опасными, так как злоумышленнику не требуется знать детали конкретной целевой модели для успешной атаки.

Уязвимость к adversarial примерам не ограничивается конкретной архитектурой нейронной сети или процедурой обучения. Наблюдаемая переносимость атак между различными моделями указывает на то, что данная уязвимость является фундаментальным свойством процесса машинного обучения в целом. Это означает, что принципы, лежащие в основе генерации обманчивых входных данных, применимы к широкому спектру моделей, независимо от их внутренней структуры или методов тренировки. Иными словами, уязвимость не является артефактом конкретной реализации, а связана с общими закономерностями, присущими алгоритмам обучения с учителем.

Для эффективной генерации атак на основе состязательных примеров используется модель VGG16 в качестве суррогата. Сгенерированные таким образом примеры затем тестируются на других архитектурах нейронных сетей. Эксперименты показали, что перенос атак с VGG16 на AlexNet приводит к значительному снижению точности на 14.4%, что сопоставимо с падением точности, наблюдаемым при использовании классификаторов на основе HOG (Histogram of Oriented Gradients). Этот подход позволяет эффективно оценивать устойчивость различных моделей к состязательным атакам без необходимости генерировать примеры непосредственно для каждой из них.

Сравнение устойчивости к атакам различных классификационных подходов показало, что пайплайны, основанные на HOG-признаках (RBF-SVM, K-NN, Linear SVM и ANN), демонстрируют сравнимую точность с CNN-базовыми моделями (AlexNet и VGG) как в чистых условиях, так и под воздействием атак FGSM и PGD, при использовании конфигурации C5 (размер блока = 3).

Оценка Устойчивости на Наборе Данных CIFAR-10

Для оценки переносимости враждебных примеров была проведена атака: враждебные примеры, сгенерированные для сверточной нейронной сети VGG16, использовались для тестирования классификатора на основе дерева решений, обученного и протестированного на наборе данных CIFAR-10. Этот подход позволил оценить, насколько уязвимы модели, использующие различные признаки, к атакам, разработанным для других типов моделей. Набор данных CIFAR-10 был выбран в качестве стандартной среды для сравнения устойчивости различных алгоритмов машинного обучения, обеспечивая воспроизводимость и сопоставимость результатов.

Набор данных CIFAR-10 широко используется в исследованиях машинного обучения благодаря своей стандартизации и хорошо изученным характеристикам. Он состоит из 60 000 цветных изображений размером 32×32 пикселя, разделенных на 10 классов с равным количеством примеров для каждого класса. Эта структура позволяет проводить объективные и воспроизводимые сравнения устойчивости различных моделей машинного обучения к враждебным атакам и другим факторам, влияющим на их производительность. Использование CIFAR-10 в качестве эталонного набора данных обеспечивает возможность сопоставления результатов, полученных разными исследователями, и упрощает оценку прогресса в области повышения надежности и безопасности систем машинного обучения.

Результаты экспериментов показали, что классификаторы, основанные на дескрипторах HOG, подвержены атакам, основанным на генерации противных примеров. Применение FGSM (Fast Gradient Sign Method) привело к снижению точности классификации в диапазоне от 16.6% до 59.1% в зависимости от конфигурации. Важно отметить, что во всех рассмотренных случаях FGSM вызывал более значительное падение точности по сравнению с PGD (Projected Gradient Descent), что ставит под сомнение предположение о высокой устойчивости конвейеров машинного обучения, основанных на ручной разработке признаков.

Применение методов блочной нормализации позволило значительно повысить точность классификатора KSVM. В ходе экспериментов зафиксировано увеличение точности от 42% до 69% в зависимости от конфигурации. Данный результат демонстрирует эффективность блочной нормализации как метода повышения устойчивости классификаторов, использующих Kernel Support Vector Machines, к возмущениям и позволяет улучшить их обобщающую способность на тестовых данных.

Несмотря на агрессивные атаки с использованием <span class="katex-eq" data-katex-display="false">\epsilon = 8/255</span>, косинусное сходство между исходными и подвергшимися воздействию изображениями остается высоким (0.831 для FGSM и 0.832 для PGD), что подтверждает сохранение общей структуры изображения при adversarial perturbations. — Несмотря на агрессивные атаки с использованием $\epsilon = 8/255$ , косинусное сходство между исходными и подвергшимися воздействию изображениями остается высоким (0.831 для FGSM и 0.832 для PGD), что подтверждает сохранение общей структуры изображения при adversarial perturbations.

Исследование демонстрирует, что кажущаяся надежность, достигаемая за счет ручной разработки признаков, как в случае с HOG, обманчива. Классические системы машинного обучения не застрахованы от атак, созданных нейронными сетями, что ставит под сомнение распространенное убеждение о естественной устойчивости, обеспечиваемой продуманным отбором признаков. Эта уязвимость, как показывает работа, переносится между различными парадигмами вычислений. Как однажды заметила Ада Лавлейс: «То, что может быть выражено в виде логической последовательности, может быть выполнено машиной». Иными словами, даже тщательно сконструированные системы подвержены воздействию, если их логика может быть взломана, что подтверждает важность непрерывного анализа и разработки методов защиты, а не полагаться на иллюзию безопасности, создаваемую статичными решениями.

Что дальше?

Представленная работа демонстрирует, что наивная уверенность в защите, обеспечиваемой ручной разработкой признаков, оказалась иллюзорной. Системы, стремящиеся к устойчивости через инженерные решения, лишь отсрочивают неизбежное — встречу с энтропией, проявляющейся в форме антагонистических воздействий. Важно понимать, что уязвимость не исчезает, а трансформируется, переходя от одной парадигмы вычислений к другой. Не стоит ожидать, что совершенствование инструментов анализа признаков станет панацеей; системы, как и люди, со временем учатся не спешить, и иногда лучше наблюдать за процессом, чем пытаться ускорить его.

Вместо погони за абсолютной устойчивостью, представляется более плодотворным исследовать механизмы адаптации и восстановления систем после воздействия. Мудрые системы не борются с энтропией — они учатся дышать вместе с ней. Следующим этапом представляется изучение не только способов защиты, но и способов предсказания антагонистических воздействий, позволяющих системам заранее адаптироваться к ним.

Иногда наблюдение — единственная форма участия. Возможно, истинная ценность данного исследования заключается не в поиске решения проблемы, а в осознании ее глубины и масштаба. Понимание того, что уязвимость — это фундаментальное свойство любой системы, а не просто техническая недоработка, открывает новые горизонты для исследований в области безопасности и надежности искусственного интеллекта.

Оригинал статьи: https://arxiv.org/pdf/2601.21323.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-30 23:08