Разумный анализ: Новая защита от вредоносного ПО, созданного ИИ

Автор: Денис Аветисян


Исследователи разработали систему, использующую возможности искусственного интеллекта для более эффективного обнаружения и анализа вредоносных программ, генерируемых другими ИИ.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал
Исследование демонстрирует, что использование больших языковых моделей для направленного поиска путей позволяет достичь 95%-го покрытия вредоносного кода, при этом требуя на 73.2% меньше путей, чем алгоритм поиска в глубину (DFS), и на 68.5% меньше, чем алгоритм поиска в ширину (BFS).
Исследование демонстрирует, что использование больших языковых моделей для направленного поиска путей позволяет достичь 95%-го покрытия вредоносного кода, при этом требуя на 73.2% меньше путей, чем алгоритм поиска в глубину (DFS), и на 68.5% меньше, чем алгоритм поиска в ширину (BFS).

Представлена CogniCrypt — платформа, объединяющая направляемое выполнение и анализ на основе больших языковых моделей для выявления ранее неизвестных угроз.

Современные подходы к обнаружению вредоносного ПО оказываются неэффективными перед лицом программ, автоматически генерируемых большими языковыми моделями (LLM). В данной работе, посвященной ‘Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection’, предложен новый гибридный фреймворк CogniCrypt, сочетающий символьное выполнение с интеллектуальной приоритизацией путей, управляемой LLM, для обнаружения вредоносного ПО, сгенерированного искусственным интеллектом. Экспериментальные результаты демонстрируют, что CogniCrypt обеспечивает высокую точность обнаружения, превосходя существующие методы на 8.4-52.2 процентных пункта при анализе AI-generated угроз. Сможет ли подобный подход стать основой для создания самообучающихся систем защиты, способных эффективно противостоять постоянно эволюционирующему ландшафту киберугроз?


Эволюционирующая Угроза: Преодолевая Полиморфизм и Искусственный Интеллект

Традиционные методы обнаружения вредоносного программного обеспечения, основанные на сигнатурах, становятся всё менее эффективными в борьбе с полиморфным кодом. Полиморфные вирусы и трояны способны изменять свой код при каждом заражении, маскируясь и обходя системы, полагающиеся на сопоставление с известными образцами. Этот процесс самоизменения значительно усложняет задачу идентификации, поскольку каждый новый вариант вредоносной программы отличается от предыдущего, делая устаревшими сигнатурные базы данных. В результате, даже при наличии антивирусной защиты, полиморфный код может успешно проникать в системы и наносить ущерб, требуя разработки принципиально новых подходов к обнаружению угроз, способных анализировать поведение программ и выявлять вредоносные действия независимо от внешнего вида кода.

Появление вредоносного ПО, генерируемого искусственным интеллектом, знаменует собой качественно новый уровень сложности для систем безопасности. Традиционные методы обнаружения, основанные на сигнатурах, оказываются неэффективными против подобных угроз, поскольку ИИ способен создавать постоянно меняющийся код, избегая узнавания. Вместо пассивного реагирования на известные шаблоны, современные системы должны применять адаптивные методы, способные предсказывать и блокировать потенциально опасное поведение, основанное на анализе аномалий и поведенческих характеристик. Такой подход позволяет выявлять новые, ранее неизвестные виды вредоносного ПО, созданные с использованием алгоритмов машинного обучения, и эффективно противостоять постоянно эволюционирующей киберугрозе.

Современный ландшафт угроз требует кардинального перехода от реактивной к проактивной стратегии кибербезопасности. Вместо простой идентификации известных сигнатур вредоносного кода, необходимо предвидеть и блокировать потенциально опасное поведение. В этой связи, система CogniCrypt демонстрирует впечатляющие результаты, достигая 97.5% точности в обнаружении вредоносного программного обеспечения, генерируемого искусственным интеллектом. Это представляет собой значительное улучшение — от 19.3 до 52.2 процентных пунктов — по сравнению с существующими методами обнаружения, что подчеркивает её эффективность в борьбе с новейшими, постоянно эволюционирующими угрозами.

В отличие от детекторов на основе сигнатур (ClamAV, YARA), чья эффективность значительно падает при анализе вредоносного ПО, сгенерированного искусственным интеллектом, CogniCrypt демонстрирует стабильно высокую точность на различных эталонных наборах данных.
В отличие от детекторов на основе сигнатур (ClamAV, YARA), чья эффективность значительно падает при анализе вредоносного ПО, сгенерированного искусственным интеллектом, CogniCrypt демонстрирует стабильно высокую точность на различных эталонных наборах данных.

Интеллектуальное Исследование Путей: CogniCrypt в Действии

CogniCrypt использует конколическое исполнение — динамический метод анализа, сочетающий в себе конкретное исполнение программы с символическим решением ограничений для исследования различных путей выполнения. В процессе конколического исполнения, некоторые переменные трактуются как символические, а не как конкретные значения. Это позволяет системе отслеживать ограничения, накладываемые на эти переменные в процессе выполнения. Решая эти ограничения с помощью решателя ограничений (например, Z3), CogniCrypt может генерировать новые входные данные, которые приводят к исследованию ранее не пройденных путей выполнения программы, обеспечивая более глубокий анализ и выявление потенциальных уязвимостей.

Для преодоления проблемы “взрыва путей” (Path Explosion Problem), свойственной конколическому выполнению, CogniCrypt использует большие языковые модели (LLM) для направления исследования путей выполнения программы. LLM применяются для определения приоритетности путей, оценивая вероятность того, что конкретный путь содержит вредоносный код. Это позволяет системе фокусироваться на наиболее перспективных направлениях анализа, значительно сокращая общее количество исследуемых путей и повышая эффективность обнаружения уязвимостей. Приоритезация путей осуществляется на основе анализа кода и данных, что позволяет LLM прогнозировать наиболее вероятные векторы атак.

В CogniCrypt приоритезация путей исследования программы осуществляется посредством функции приоритета, реализованной внутри большой языковой модели (LLM). Эта функция позволяет LLM оценивать вероятность того, что конкретный путь содержит вредоносный код, и направлять процесс исследования таким образом, чтобы сначала анализировались наиболее вероятные пути. В результате, при достижении покрытия вредоносного кода, CogniCrypt использует на 73.2% меньше путей по сравнению с поиском в глубину (DFS) и на 68.5% меньше путей по сравнению с поиском в ширину (BFS). Это значительно повышает эффективность анализа и снижает вычислительные затраты.

В основе реализации CogniCrypt лежат инструменты angr и Z3, обеспечивающие выполнение конкретного кода и решение ограничений, необходимые для конколического выполнения. Angr предоставляет платформу для анализа бинарных файлов и управления выполнением, а Z3 выступает в качестве решателя ограничений, позволяющего определять выполнимость путей и генерировать входные данные для их активации. Взаимодействие этих инструментов позволяет CogniCrypt эффективно исследовать пространство состояний программы, выявляя потенциально вредоносные пути и обеспечивая высокую степень покрытия кода при анализе.

Эксперименты с различными LLM в CogniCrypt показали высокую производительность всех моделей, при этом GPT-4 незначительно превосходит остальные по метрике F1-Score.
Эксперименты с различными LLM в CogniCrypt показали высокую производительность всех моделей, при этом GPT-4 незначительно превосходит остальные по метрике F1-Score.

Трансформерная Классификация: Распознавание Злонамеренности

В CogniCrypt используется классификатор на основе трансформеров, предназначенный для сопоставления трасс символьного исполнения с оценкой злонамеренности. Данный классификатор анализирует трассы, полученные в результате символьного исполнения программного кода, и преобразует их в числовое представление, которое затем используется для определения вероятности злонамеренного поведения. Он принимает на вход логические формулы, представляющие условия, при которых выполняются определенные пути исполнения, и сопоставляет эти формулы с известными паттернами, характерными для вредоносного программного обеспечения. Результатом работы классификатора является оценка, отражающая степень вероятности того, что исследуемый код является вредоносным.

Классификатор построен на базе фреймворка PyTorch, что обеспечивает гибкость и эффективность при работе с тензорными вычислениями, необходимыми для анализа трасс выполнения. Для повышения производительности и точности классификации используются предварительно обученные модели из библиотеки Hugging Face Transformers. Применение трансферного обучения позволяет классификатору эффективно использовать знания, полученные при обучении на больших объемах текстовых данных, адаптируя их к задаче выявления вредоносных шаблонов в логических формулах, представляющих ограничения по путям выполнения. Использование предварительно обученных моделей значительно сокращает время обучения и улучшает обобщающую способность классификатора.

Классификатор анализирует ‘Пути Ограничений’ (Path Constraints) — логические формулы, представляющие условия, при которых выполняются конкретные пути исполнения программы. Эти формулы, выраженные в виде логических выражений, таких как p \land q \rightarrow r, используются для выявления шаблонов, характерных для вредоносного поведения. Анализ включает в себя определение специфических комбинаций условий, которые указывают на попытки обхода защитных механизмов, манипулирования памятью или выполнения несанкционированных действий. Выявление этих паттернов позволяет классификатору присваивать образцу вредоносного ПО соответствующий уровень риска, основываясь на сложности и потенциальной опасности выявленных условий исполнения.

Производительность классификатора, основанного на трансформерах, в CogniCrypt постоянно улучшается посредством цикла обучения с подкреплением. Этот цикл оптимизирует политику приоритезации, используемую большой языковой моделью (LLM) при анализе путей выполнения. В процессе обучения, LLM получает вознаграждение или штраф в зависимости от точности классификации, что позволяет ей корректировать стратегию выбора наиболее вероятных путей, ведущих к обнаружению вредоносного кода. Итеративный характер цикла обучения с подкреплением обеспечивает непрерывное повышение эффективности классификатора и адаптацию к новым типам угроз, максимизируя точность и минимизируя ложные срабатывания.

CogniCrypt демонстрирует высокую точность и полноту обнаружения вредоносных программ всех семейств на наборе данных AI-Gen-Malware, особенно эффективно справляясь с полиморфными образцами, сгенерированными искусственным интеллектом.
CogniCrypt демонстрирует высокую точность и полноту обнаружения вредоносных программ всех семейств на наборе данных AI-Gen-Malware, особенно эффективно справляясь с полиморфными образцами, сгенерированными искусственным интеллектом.

Валидация и Широкие Последствия: Надёжность и Эффективность

Надёжность системы CogniCrypt гарантирует, что любое обнаруженное вредоносное ПО действительно представляет угрозу, существенно снижая количество ложных срабатываний. Этот аспект критически важен, поскольку ложные тревоги приводят к неоправданным затратам времени и ресурсов на анализ, а также могут нарушить нормальную работу систем. В отличие от традиционных методов, где даже небольшое количество ложных срабатываний может стать серьёзной проблемой, CogniCrypt стремится к высокой точности, обеспечивая уверенность в том, что каждое зафиксированное нарушение — это реальная угроза, требующая внимания. Такая надёжность позволяет специалистам по информационной безопасности эффективно расставлять приоритеты и концентрироваться на действительно опасных угрозах, значительно повышая общую эффективность защиты.

В основе разработанной системы лежит концепция “Относительной Полноты”, что означает стремление к обнаружению всех достижимых вредоносных путей в пределах заданных вычислительных ресурсов. В отличие от абсолютной полноты, недостижимой в реальных условиях из-за постоянно растущей сложности программного обеспечения и ограничений по времени, система CogniCrypt фокусируется на выявлении наиболее вероятных и легкодоступных векторов атак. Такой подход позволяет эффективно использовать доступные ресурсы, обеспечивая надежную защиту от значительной части угроз, при этом избегая излишней нагрузки на систему и сохраняя её производительность. Фактически, система не стремится найти абсолютно все возможные пути эксплуатации, а концентрируется на тех, которые представляются наиболее реалистичными и достижимыми для злоумышленника, что делает её практичным и эффективным инструментом для защиты от современных вредоносных программ.

Оценка системы CogniCrypt проводилась на специализированном наборе данных ‘AI-Gen-Malware Dataset’, включающем образцы вредоносного ПО, сгенерированные с использованием методов искусственного интеллекта. Результаты продемонстрировали высокую эффективность системы в обнаружении новых, ранее неизвестных угроз. Значение метрики AUC-ROC, достигшее 0.993, подтверждает способность CogniCrypt к надежному различению вредоносного кода от безопасного, даже в условиях постоянно меняющегося ландшафта киберугроз. Такой показатель свидетельствует о значительном превосходстве над традиционными методами обнаружения, основанными на сигнатурах, и открывает перспективы для разработки более устойчивых систем защиты информации.

Предлагаемый подход принципиально отличается от традиционных методов обнаружения вредоносного ПО, основанных на сигнатурах. Вместо поиска известных шаблонов, система CogniCrypt анализирует поведение программного обеспечения, что позволяет выявлять новые, ранее неизвестные угрозы. Такая проактивная защита особенно важна в условиях стремительно меняющегося ландшафта киберугроз, где злоумышленники постоянно разрабатывают новые методы атак. Данная разработка не только повышает текущий уровень безопасности, но и закладывает основу для дальнейших инноваций в области киберзащиты, открывая перспективы для создания более адаптивных и эффективных систем обнаружения и предотвращения угроз.

Модель CogniCrypt демонстрирует превосходную производительность на наборе данных AI-Gen-Malware, достигая значения AUC 0.993 и значительно превосходя все базовые модели.
Модель CogniCrypt демонстрирует превосходную производительность на наборе данных AI-Gen-Malware, достигая значения AUC 0.993 и значительно превосходя все базовые модели.

Представленная работа демонстрирует стремление к математической чистоте в области обнаружения вредоносного ПО. CogniCrypt, используя возможности больших языковых моделей для управления конколочным выполнением, представляет собой элегантное решение, направленное на повышение эффективности обнаружения AI-генерируемых угроз. Подход, основанный на интеллектуальной приоритизации путей и классификации уязвимостей, подчеркивает важность доказуемости алгоритма. Как однажды заметил Алан Тьюринг: «Самое важное — это не то, что машина может делать, а то, что она заставляет нас думать.» Эта фраза отражает суть CogniCrypt — система не просто обнаруживает вредоносное ПО, но и стимулирует развитие новых подходов к анализу и защите от сложных, полиморфных угроз.

Что Дальше?

Представленная работа, несмотря на достигнутые результаты, лишь слегка отодвинула завесу над истинной сложностью задачи обнаружения вредоносного ПО, созданного искусственным интеллектом. Необходимо признать, что направленная конколи́ческая верификация, усиленная большими языковыми моделями, — это не панацея, а скорее элегантный инструмент, требующий дальнейшей отточки. Успех CogniCrypt зависит от качества используемой языковой модели и, что более важно, от её способности адекватно интерпретировать семантику вредоносного кода. Оптимизация без анализа — это самообман и ловушка для неосторожного разработчика.

Будущие исследования должны быть сосредоточены на преодолении ограничений, связанных с полиморфизмом и обфускацией. Простое обнаружение известных паттернов недостаточно; необходимо понимать намерение кода, его функциональное назначение. Углубление в области формальной верификации и символьного исполнения, а также разработка более устойчивых к обфускации методов анализа, представляются критически важными. Попытки интеграции машинного обучения с формальными методами, хоть и сложны, могут открыть новые горизонты.

В конечном счете, задача обнаружения AI-сгенерированного вредоносного ПО — это гонка вооружений. Искусственный интеллект будет эволюционировать, создавая все более изощренные угрозы, и только постоянное стремление к математической чистоте и строгости в методах анализа позволит сохранить хоть какое-то преимущество. Надежды на «волшебную таблетку» быть не должно.


Оригинал статьи: https://arxiv.org/pdf/2603.09044.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-12 05:20