По следам нейронных атак: обнаружение вредоносных примеров

Автор: Денис Аветисян

Новая методика отслеживания потока данных внутри нейронных сетей позволяет выявлять атаки, основанные на специально созданных входных данных.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Обученная модель, получив входные данные, формирует граф логических выводов, зависящий от этих данных, который представляется в виде гетерогенного графа и используется классификатором для решения задач, таких как обнаружение враждебных атак.

Предложена система NeuroTrace, анализирующая графы информационного происхождения (Inference Provenance Graphs) для обнаружения аномалий в процессе вычислений и повышения устойчивости моделей к adversarial примерам.

Глубокие нейронные сети остаются во многом непрозрачными во время работы, что затрудняет обнаружение и диагностику злонамеренных манипуляций с входными данными, таких как adversarial examples. В работе ‘NeuroTrace: Inference Provenance-Based Detection of Adversarial Examples’ представлен NeuroTrace — фреймворк и открытый набор данных для анализа lineage вычислений посредством Inference Provenance Graphs (IPGs), позволяющий выявлять системные нарушения потока информации в процессе инференса. Показано, что анализ provenance обеспечивает надежный и переносимый сигнал для различения adversarial и benign входов, превосходя существующие graph-based подходы. Способствует ли понимание lineage вычислений созданию более прозрачных и надежных систем машинного обучения, способных эффективно противостоять новым типам атак?

Уязвимость Глубоких Сетей: Скрытая Слабость

Глубокие нейронные сети, несмотря на свою впечатляющую производительность, оказываются неожиданно уязвимыми к специально разработанным, едва заметным изменениям во входных данных — так называемым «состязательным примерам». Эти примеры, зачастую не различимые для человеческого глаза, способны ввести модель в заблуждение и заставить её выдавать неверные результаты с высокой степенью уверенности. Данная уязвимость вызывает серьёзные опасения в контексте систем безопасности, автономного транспорта и других критически важных приложений, где надежность и точность являются первостепенными. Проблема заключается не просто в ошибках, а в систематической возможности обмануть модель, что подрывает доверие к её решениям и требует разработки новых, более устойчивых методов обучения и защиты.

Атаки с использованием состязательных примеров ярко демонстрируют недостаточную устойчивость глубоких нейронных сетей и, что более важно, ограниченное понимание механизмов, лежащих в основе их решений. Неспособность объяснить, почему модель пришла к определенному выводу, особенно когда это приводит к ошибкам, существенно подрывает доверие к этим системам. Простое повышение точности на обучающем наборе данных уже недостаточно; необходимо глубинное понимание внутреннего функционирования сети, чтобы гарантировать надежность и предсказуемость её поведения в реальных условиях. Отсутствие прозрачности в процессе принятия решений делает эти системы уязвимыми не только к злонамеренным атакам, но и вызывает опасения по поводу их применения в критически важных областях, таких как здравоохранение и автономное управление.

Современные методы защиты глубоких нейронных сетей от атак, основанных на создании намеренно искаженных входных данных, зачастую оказываются неэффективными. Исследования демонстрируют, что даже самые передовые системы защиты не гарантируют полной устойчивости, и модели могут быть обмануты с вероятностью, превышающей 20% в определенных сценариях. Недостаточно полагаться на анализ лишь поверхностных, локальных сигналов отдельных слоев сети; для повышения надежности необходим более глубокий анализ внутренних состояний модели и механизмов принятия решений. Понимание того, как именно сеть обрабатывает информацию на каждом этапе, позволит разработать более эффективные стратегии защиты, способные противостоять сложным и изощренным атакам.

Быстрое улучшение и стабильность точности при обучении и валидации многоатачной системы обнаружения свидетельствуют о том, что полученное представление о происхождении данных легко различимо при контролируемом обучении.

NeuroTrace: Отслеживание Логики Нейронной Сети

Представляем NeuroTrace — унифицированный фреймворк, предназначенный для извлечения и представления инференционной прослеживаемости (Inference Provenance). Данная прослеживаемость представляет собой детальную запись состояний активаций на протяжении всей нейронной сети. Фреймворк фиксирует значения активаций каждого слоя во время прямого прохода (forward pass), создавая полную картину вычислительного процесса. Полученные данные позволяют реконструировать путь, который проходит информация через сеть, что необходимо для анализа и интерпретации работы модели.

Реализация сбора информации о происхождении вычислений осуществляется посредством Provenance Engine и Forward Hooks. Forward Hooks представляют собой механизмы перехвата активаций в процессе прямого прохода (forward pass) по нейронной сети. Эти перехваченные активации, включающие тензоры и другие промежуточные результаты вычислений, затем передаются в Provenance Engine для дальнейшей обработки и формирования графа происхождения вычислений. Данный подход позволяет отслеживать, как данные преобразуются на каждом слое сети, без внесения существенных изменений в архитектуру или процесс обучения модели.

Результирующий граф происхождения выводов (Inference Provenance Graph, IPG) представляет вычисления нейронной сети в виде гетерогенного графа, что позволяет проводить анализ на основе методов графовой теории. Каждый узел в графе соответствует активации, а ребра — потоку данных между слоями. Такая структура позволяет отслеживать влияние конкретных входных данных на выходные значения и проводить анализ чувствительности. В настоящее время время извлечения графа для моделей компьютерного зрения среднего размера составляет десятки секунд на один граф.

Результаты анализа ROC-кривых при обучении на комбинации атак демонстрируют, что определение происхождения вывода позволяет выявлять общие структурные признаки различных типов атак.

Анализ Уязвимости с Использованием Графовых Нейронных Сетей

Для анализа графа происхождения выводов (Inference Provenance Graph) и выявления критических путей используется подход, основанный на графовых нейронных сетях (Graph Neural Networks), в частности, алгоритм GraphSAGE. GraphSAGE позволяет эффективно агрегировать информацию от соседних узлов в графе, что необходимо для оценки важности каждого узла и ребра в контексте конкретного вывода. В отличие от традиционных методов анализа графов, GraphSAGE способен обрабатывать графы переменного размера и структуры, что характерно для сложных моделей машинного обучения. Этот подход позволяет идентифицировать подграфы, наиболее существенно влияющие на принимаемые моделью решения, и, следовательно, потенциально уязвимые к атакам.

Ключевые графы вывода (Critical Inference Graphs) определяются как подграфы, критически важные для конкретного предсказания модели. Идентификация этих подграфов осуществляется с помощью методов, таких как Layer-wise Relevance Propagation (LRP), которые позволяют проследить вклад каждого нейрона в конечное решение. LRP назначает каждому нейрону релевантность, пропорциональную его вкладу в выходное значение, тем самым выделяя наиболее значимые пути активации в графе вывода. Анализ этих подграфов позволяет установить, какие конкретно связи и нейроны оказывают наибольшее влияние на предсказание, что важно для оценки устойчивости модели к различным атакам и для интерпретации её поведения.

Анализ подграфов, выделенных как критически важные для конкретного предсказания, позволяет отследить распространение небольших возмущений входных активаций, вносимых атаками, такими как Bit-Flip или FGSM, и их влияние на конечный результат. Данный подход позволяет выявить, какие именно активации оказывают наибольшее влияние на принятие решения моделью. Разработанные детекторы, использующие данный анализ, демонстрируют точность выше 96% при обнаружении атак различных семейств и в различных конфигурациях.

Кривые ROC, полученные в ходе оценки внутри одной серии атак, демонстрируют высокую степень различимости между корректными и аномальными пакетами межсетевого экрана (IPG), поскольку они остаются близкими к верхнему левому углу.

Защита и Обобщаемость: Путь к Надежности

Разработанный подход демонстрирует значительно повышенную устойчивость к широкому спектру атак, включая $PGD$ , $APGD-DLR$ , $SPSA$ , $Square Attack$ , $SIA/SIT$ и $Emb-att$ . В ходе тестирования, система успешно противостояла этим разнообразным угрозам, что указывает на её способность адаптироваться к различным стратегиям атаки. Это достигается за счет комплексного анализа и укрепления внутренних механизмов защиты, позволяя системе эффективно обнаруживать и нейтрализовать даже сложные и изощренные атаки, направленные на обход стандартных мер безопасности. Такая устойчивость имеет решающее значение для обеспечения надежности и безопасности систем машинного обучения в реальных условиях, где атаки могут быть непредсказуемыми и постоянно эволюционирующими.

Анализ, основанный на использовании направленных градиентов $IPG$ , представляет собой более понятный и обобщаемый механизм защиты по сравнению с традиционным состязательным обучением. В отличие от методов, которые стремятся просто повысить устойчивость сети к конкретным типам атак, данный подход фокусируется на выявлении и смягчении внутренних логических уязвимостей, присущих архитектуре нейронной сети. Это позволяет не только эффективно противостоять известным атакам, но и демонстрировать повышенную устойчивость к новым, ранее не встречавшимся возмущениям. В результате, защита, основанная на $IPG$ , обеспечивает не просто «запоминание» атакующих образцов, а формирование более надежной и интерпретируемой модели, способной к обобщению и адаптации к меняющимся угрозам, что делает её перспективной для применения в различных областях, требующих высокой степени безопасности.

Исследования показали, что акцент на внутренней логике нейронной сети позволяет эффективно противостоять даже новым и адаптивным атакам. Подход, применяемый к таким архитектурам, как `Cuckoo-DNN` и `EMBER-DNN`, демонстрирует высокую устойчивость к различным возмущениям входных данных. Достижение почти идеального значения AUC (площади под ROC и PR кривыми) в различных сценариях указывает на чёткое разграничение между легитимными и враждебными данными. Примечательно, что разработанная защита сохраняет свою эффективность при переносе между атаками, известными параметры (white-box) и неизвестными (black-box), что свидетельствует о её общей применимости и способности адаптироваться к меняющимся угрозам.

Стабильные кривые обучения и валидации показывают, что многоатачная модель детектирования успешно оптимизируется без признаков расхождения.

Представленная работа демонстрирует стремление к выявлению системных нарушений в потоке информации при анализе моделей машинного обучения. Этот подход, основанный на построении и анализе графов происхождения вывода (Inference Provenance Graphs), позволяет обнаруживать атак, направленных на искажение результатов работы модели. Как однажды заметил Алан Тьюринг: «Самое важное — это не то, что машина может думать, а то, что она может делать». В данном исследовании акцент смещен с имитации мышления на практическое решение задачи обнаружения атак, что соответствует принципам прагматизма и эффективности. Прослеживаемая цепочка вывода, являющаяся ключевым элементом NeuroTrace, позволяет не только обнаружить аномалию, но и установить источник искажения, что значительно повышает надежность системы.

Что дальше?

Представленная работа, хотя и демонстрирует эффективность анализа графов происхождения логических выводов для выявления атак на нейронные сети, лишь приоткрывает завесу над истинной сложностью проблемы. Полагаться на выявление “системных сбоев” в потоке информации — всё равно что искать трещины в айсберге, наблюдая лишь за его вершиной. Реальная устойчивость нейронных сетей, вероятно, кроется не в обнаружении атак, а в проектировании архитектур, изначально невосприимчивых к манипуляциям. Упрощение — вот истинный путь.

Дальнейшие исследования должны быть направлены на преодоление ограничений, связанных с вычислительной сложностью построения и анализа графов происхождения. Уменьшение размерности этих графов без потери критической информации — задача, требующая не только технических инноваций, но и философского переосмысления того, что действительно представляет собой “информация” в контексте глубокого обучения. Возможно, полезным направлением станет исследование аналогов графов происхождения в других областях, например, в системах принятия решений человеком.

В конечном счете, поиск идеальной системы обнаружения атак — это бесконечная гонка вооружений. Более плодотворным представляется стремление к созданию моделей, которые не просто «реагируют» на аномалии, а способны к самодиагностике и самокоррекции. И тогда, возможно, понадобится меньше внимания к обнаружению зла, и больше — к взращиванию добра.

Оригинал статьи: https://arxiv.org/pdf/2604.14457.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-18 10:51