Прозрачное обнаружение вредоносного ПО: от объяснений к коду

Автор: Денис Аветисян

Новый подход позволяет понять, почему система обнаружила вредоносную программу, прослеживая объяснения до конкретных инструкций в её коде.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал

В статье представлен метод Meta-Coarsening для повышения объяснимости и эффективности систем обнаружения вредоносного ПО на основе графов потока ассемблера.

Современные системы обнаружения вредоносного ПО часто уступают в прозрачности, затрудняя понимание причин принятия решений. В данной работе, посвященной ‘Towards Transparent Malware Detection With Granular Explainability: Backtracking Meta-Coarsened Explanations Onto Assembly Flow Graphs With Graph Neural Networks’, предложен новый подход, использующий графы потока ассемблера (AFG) и метод мета-укрупнения для повышения объяснимости и эффективности обнаружения угроз. Полученные результаты демонстрируют возможность достижения как более детальных объяснений, так и улучшения производительности на определенных уровнях укрупнения графов. Сможет ли предложенный метод стать основой для создания действительно прозрачных и надежных систем защиты от вредоносного ПО?

От потока управления к графовому представлению

Традиционный анализ вредоносного программного обеспечения долгое время опирался на детальное изучение потока управления программой, позволяя экспертам прослеживать последовательность выполнения инструкций. Однако, статичный анализ, основанный на разборе кода без его фактического запуска, сталкивается с существенными ограничениями. Обфускация кода, использование антиотладочных приемов и динамически генерируемый код способны эффективно скрывать истинное поведение программы, делая статический анализ неполным и требующим значительных усилий. Более того, анализ больших исполняемых файлов вручную становится чрезвычайно трудоемким и подвержен ошибкам, что подчеркивает необходимость в автоматизированных и более продвинутых подходах к обнаружению и пониманию угроз.

Представление исполняемых файлов в виде графов потока ассемблерного кода (AFG) открывает новые возможности для анализа поведения программ. В отличие от традиционных методов, основанных на линейном просмотре инструкций, AFG моделируют программу как сеть узлов, представляющих базовые блоки кода, и ребер, отражающих возможные переходы между ними. Такой подход позволяет более эффективно выявлять сложные закономерности, циклические зависимости и потенциально вредоносные участки кода, поскольку акцент смещается с последовательности инструкций на взаимосвязи между ними. AFG особенно полезны при анализе обфусцированного или упакованного вредоносного ПО, где статический анализ затруднен, поскольку позволяют абстрагироваться от поверхностных изменений и сосредоточиться на логической структуре программы. Благодаря своей гибкости и выразительности, AFG становятся все более востребованным инструментом в арсенале специалистов по информационной безопасности.

Построение графа потока управления (AFG) неразрывно связано с фундаментальными методами анализа графов потока управления, которые позволяют представить структуру программы в виде узлов и ребер, отражающих последовательность выполнения инструкций. Для эффективной обработки и анализа этих графов, инструкции исходного кода преобразуются в числовые представления посредством кодирования инструкций. Этот процесс позволяет компактно представлять каждую операцию и упрощает математические операции над графом, например, поиск определенных последовательностей или выявление критических путей. Такое числовое кодирование не только оптимизирует хранение данных, но и является ключевым этапом для применения алгоритмов машинного обучения и анализа данных к бинарным файлам, позволяя выявлять подозрительное поведение и характеристики вредоносного ПО.

Масштабирование графового анализа с помощью Meta-Coarsening

Применение графовых нейронных сетей (GNN) непосредственно к крупным графам потока управления (AFG) требует значительных вычислительных ресурсов и больших объемов памяти. Это связано с тем, что сложность операций GNN обычно растет как минимум линейно с количеством вершин и ребер в графе. Для графов, представляющих реальные программные системы, количество вершин и ребер может достигать миллионов, что делает прямое применение GNN практически невозможным на стандартном оборудовании. Проблема усугубляется необходимостью хранения промежуточных результатов и градиентов во время обучения, что еще больше увеличивает требования к памяти.

Мета-укрупнение (Meta-Coarsening) представляет собой метод снижения вычислительной сложности анализа больших графов, таких как графы потока управления (AFG), путем уменьшения их размера. В отличие от простого уменьшения числа узлов и ребер, мета-укрупнение стремится сохранить существенные семантические свойства программы, что позволяет применять методы анализа графов, такие как графовые нейронные сети (GNN), к более компактному представлению. Этот подход позволяет снизить требования к памяти и вычислительным ресурсам без значительной потери точности анализа, обеспечивая возможность масштабирования анализа графов для программного обеспечения больших размеров.

Метод мета-укрупнения использует такие подходы, как Variation Edges и Kron Reduction, для создания сжатого представления графа, пригодного для анализа с помощью графовых нейронных сетей (GNN). В частности, применение Variation Edges с параметром $r = 0.75$ позволило достичь точности в 92.3% при анализе больших графов, сохраняя при этом существенные семантические свойства программы. Указанные методы эффективно уменьшают размер графа, выделяя наиболее важные связи и агрегируя менее значимые узлы и ребра, что снижает вычислительные затраты и требования к памяти без существенной потери информации.

Объяснимый ИИ для анализа вредоносного ПО

Графовые нейронные сети (GNN) демонстрируют высокую точность в обнаружении вредоносного ПО, однако их внутренняя работа часто непрозрачна, что затрудняет понимание причин, по которым было принято то или иное решение. Эта «черноящичность» ограничивает доверие к результатам GNN со стороны аналитиков безопасности, поскольку отсутствие интерпретируемости не позволяет проверить логику классификации и выявить потенциальные ошибки или предвзятости. Неспособность понять, какие конкретно характеристики программного обеспечения привели к определению как вредоносного, снижает уверенность в принятии решений на основе данных, полученных от GNN.

Для интерпретации предсказаний графовых нейронных сетей (GNN) при анализе вредоносного ПО, особенно при работе с графами потока управления (AFG), критически важны методы объяснимого искусственного интеллекта (XAI), такие как Integrated Gradients и Guided Backpropagation. Эти техники позволяют выявить, какие конкретно инструкции ассемблера оказывают наибольшее влияние на классификацию вредоносной программы. Integrated Gradients определяет вклад каждой инструкции, аккумулируя градиенты вдоль пути от базового входа, а Guided Backpropagation визуализирует наиболее значимые активации, проходящие через сеть. Применение этих методов позволяет аналитикам безопасности не только подтвердить правильность классификации, но и понять логику работы вредоносного ПО, что значительно повышает эффективность анализа и разработки контрмер.

Методы объяснимого искусственного интеллекта (XAI), такие как Integrated Gradients и Guided Backpropagation, позволяют выявить наиболее влиятельные инструкции ассемблера, определяющие классификацию вредоносного ПО на графах потока управления (AFG). Анализ этих инструкций предоставляет специалистам по безопасности ценные сведения о логике работы вредоносного кода и принципах его функционирования. При использовании метода Kron coarsening с параметром r=0.25, общая оценка качества характеризации (characterization score) достигает 0.713, что подтверждает эффективность данного подхода для интерпретации результатов анализа.

Оценка качества объяснений и надежности

Оценка достоверности объяснений модели, основанная на показателе «Fidelity Score», позволяет количественно определить, насколько сильно удаление ключевых признаков — в данном случае, инструкций по сборке — влияет на предсказание графовой нейронной сети (GNN). Этот показатель служит индикатором «верности» объяснения, поскольку демонстрирует, насколько сильно модель полагается на эти признаки для принятия решения. Чем значительнее изменение предсказания после удаления важных признаков, тем ниже показатель «Fidelity Score» и, следовательно, тем менее достоверным считается объяснение. Высокий показатель свидетельствует о том, что модель действительно использует указанные признаки для формирования предсказания, подтверждая, что объяснение отражает реальную логику работы GNN.

Для всесторонней оценки качества объяснений, помимо оценки достоверности, был разработан Показатель Характеризации. Этот показатель объединяет принципы достаточности и необходимости, позволяя установить, насколько полно объяснение охватывает все важные факторы, влияющие на предсказание модели. В ходе исследований, значение Показателя Характеризации достигло 0.713, что свидетельствует о высокой степени соответствия между объяснением и фактическими причинами, лежащими в основе решений графовой нейронной сети. Такой комплексный подход позволяет более уверенно интерпретировать результаты работы модели и принимать обоснованные решения, особенно в контексте задач безопасности.

Предложенные метрики позволяют количественно оценить надежность объяснений, что способствует принятию более обоснованных решений в области безопасности. Исследование показало, что для C-CFG наблюдается максимальный показатель β, указывающий на высокую степень влияния объяснений на предсказания модели, в то время как для B-AFG этот показатель минимален. Такой количественный подход позволяет не только оценить качество объяснений, но и выявить наиболее значимые факторы, определяющие поведение модели, что критически важно для выявления потенциальных уязвимостей и повышения устойчивости систем безопасности. Оценка надежности объяснений, таким образом, становится неотъемлемой частью процесса разработки и внедрения безопасных интеллектуальных систем.

К адаптивной и устойчивой системе обнаружения вредоносного ПО

Динамически генерируемые графы, представляющие поведение программ в процессе выполнения, значительно повышают точность обнаружения вредоносного ПО на основе анализа потока управления (AFG). В отличие от статических методов, которые анализируют код без запуска, данный подход отслеживает фактические действия программы в реальном времени. Каждый узел графа отражает базовый блок кода, а ребра — переходы между ними, формируя детальную картину поведения. Это позволяет выявлять аномалии и вредоносные действия, которые могут быть скрыты при статическом анализе, а также эффективно обнаруживать полиморфные и обфусцированные вредоносные программы, адаптирующиеся к защитным механизмам. Создание графа непосредственно во время выполнения программы обеспечивает более полное и точное представление о ее намерениях, что приводит к снижению числа ложных срабатываний и повышению общей эффективности системы обнаружения угроз.

Интеграция объяснимого искусственного интеллекта (XAI) с динамически генерируемыми графами поведения программ открывает возможности для анализа угроз в режиме реального времени и адаптивных мер безопасности. Вместо простого выявления вредоносного кода, система способна объяснить, почему определенное поведение классифицируется как подозрительное, что позволяет оперативно реагировать на новые, ранее неизвестные угрозы. Благодаря этому, система не просто блокирует вредоносное действие, но и предоставляет информацию о его природе, позволяя специалистам по безопасности более эффективно адаптировать стратегии защиты и предотвращать будущие атаки. Такой подход позволяет перейти от реактивной, основанной на сигнатурах, защиты к проактивной и адаптивной системе, способной предвидеть и нейтрализовать сложные и постоянно меняющиеся угрозы кибербезопасности.

Предложенный подход демонстрирует значительный потенциал в создании более устойчивой и проактивной защиты от постоянно эволюционирующих вредоносных программ. Исследования показали, что применение данной методики позволяет достичь точности обнаружения на уровне 90.1%, используя комбинацию алгоритмов Kron и Variation Edges с параметрами r = 0.25 и 0.75 соответственно. В отличие от традиционных систем, основанных на сигнатурах, данный метод способен эффективно выявлять новые и неизвестные угрозы, анализируя поведение программ в динамике. Это позволяет не просто реагировать на существующие атаки, но и предвидеть и предотвращать новые, обеспечивая повышенный уровень безопасности.

Исследование демонстрирует стремление к упрощению сложного — к выявлению ключевых элементов, определяющих поведение вредоносного кода. Авторы предлагают метод мета-укрупнения, позволяющий анализировать программы на уровне ассемблерных инструкций, не увязая в избыточной детализации. Это отражает глубокое понимание того, что истинная ясность достигается не за счет добавления информации, а за счет её фильтрации. Как заметил Клод Шеннон: «Информация — это то, что уменьшает неопределенность». В данном случае, мета-укрупнение направлено на снижение неопределенности при анализе вредоносного кода, выявляя наиболее значимые паттерны поведения, что критически важно для повышения эффективности систем обнаружения угроз.

Что дальше?

Предложенный подход, фокусируясь на детализации объяснений в обнаружении вредоносного кода, не решает фундаментальную проблему: сложность анализа. Каждый уровень детализации — это новый горизонт усложнения. Стремление к абсолютной прозрачности, как и любая абсолютная цель, рискует утонуть в деталях. Истинное понимание заключается не в знании каждой инструкции, а в осознании принципов, управляющих программой. Поиск “белого ящика” может оказаться бесплодным, если не сопровождается строгим ограничением области исследования.

Перспективы кажутся связанными с развитием техник автоматической абстракции. Вместо того чтобы углубляться в детали, необходимо научиться выделять существенное, отбрасывая несущественное. Следующим шагом представляется разработка алгоритмов, способных автоматически формировать различные уровни абстракции, адаптируясь к конкретной задаче и доступным ресурсам. Идеальным решением станет система, способная самостоятельно определять, когда детализация необходима, а когда достаточно общего представления.

В конечном счете, задача заключается не в создании идеального детектора, а в построении системы, способной адаптироваться к постоянно меняющейся угрозе. Истинное совершенство — это исчезновение необходимости в объяснениях, когда система настолько надежна, что ее действия предсказуемы и понятны на интуитивном уровне. Это, возможно, утопия, но к ней стоит стремиться, памятуя о том, что избыточность — враг ясности.

Оригинал статьи: https://arxiv.org/pdf/2601.14511.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-22 23:12