Изображения под прицелом: как ИИ распознает фишинговые сайты

Автор: Денис Аветисян

Новое исследование показывает, что анализ изображений с веб-страниц может стать эффективным методом обнаружения фишинга, превосходящим традиционные подходы.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Анализ пороговых значений для архитектуры ConvNeXt-Tiny демонстрирует её чувствительность к различным параметрам, определяющим границу между эффективной и неэффективной работой модели.

Сравнение CNN и Vision Transformers показывает, что ConvNeXt-Tiny обеспечивает лучшую точность и стабильность при оптимизации порогов для выявления фишинговых сайтов по изображениям.

Современные системы обнаружения фишинговых сайтов все чаще оказываются неэффективными против визуально замаскированных атак. В работе ‘AI Powered Image Analysis for Phishing Detection’ предложен подход, использующий глубокое обучение для анализа скриншотов веб-страниц с целью выявления фишинга на основе визуальных характеристик. Эксперименты показали, что сверточная нейронная сеть ConvNeXt-Tiny превосходит Vision Transformer по эффективности и точности, особенно при оптимизации порога принятия решений. Может ли этот подход стать основой для создания более надежных систем защиты от фишинга, способных адаптироваться к постоянно меняющимся визуальным приемам злоумышленников?

Устаревшие фильтры и новые угрозы: Эволюция фишинга

Традиционные методы обнаружения фишинга, основанные на анализе URL-адресов и текстового содержимого веб-страниц, демонстрируют растущую уязвимость перед всё более изощрёнными атаками. Злоумышленники активно совершенствуют свои тактики, создавая сайты, которые внешне практически неотличимы от легитимных ресурсов, что позволяет им обходить стандартные фильтры и системы защиты. Анализ URL и текста становится неэффективным, когда фишинговые страницы используют техники маскировки, такие как сокращенные ссылки, омоглифы и визуально похожие домены. Эта тенденция указывает на необходимость разработки новых подходов к обнаружению фишинга, которые учитывают сложность современных атак и способны выявлять вредоносные сайты даже при отсутствии явных признаков в URL или текстовом контенте.

Современные методы обнаружения фишинговых атак, основанные на анализе URL-адресов и текстового содержания веб-страниц, демонстрируют растущую неэффективность перед лицом изощрённых злоумышленников. Особенно уязвимы эти системы к визуально идентичным, но злонамеренным веб-страницам, которые успешно обходят стандартные фильтры, имитируя легитимные ресурсы. Злоумышленники все чаще используют сложные методы маскировки, создавая копии известных сайтов с минимальными отличиями, невидимыми для традиционных алгоритмов анализа текста, но способными ввести в заблуждение невнимательного пользователя. Такие атаки эксплуатируют визуальное доверие, заставляя жертву полагаться на видимую схожесть с известным брендом, что значительно повышает вероятность успеха.

В связи с растущей изощренностью фишинговых атак, характеризующихся высокой визуальной схожестью с легитимными веб-страницами, традиционные методы обнаружения, основанные на анализе URL и текста, становятся все менее эффективными. Современные злоумышленники активно используют визуальные манипуляции, чтобы обойти существующие фильтры и убедить пользователей в подлинности поддельных сайтов. Это обуславливает необходимость перехода к технологиям, ориентированным на анализ изображений, позволяющим выявлять вредоносные страницы по визуальным признакам, даже если текстовый и адресный состав кажутся безобидными. Такой подход предполагает использование алгоритмов компьютерного зрения для сравнения визуального контента подозрительных сайтов с базой данных легитимных ресурсов, что позволяет обнаруживать даже тщательно замаскированные фишинговые страницы.

Визуальный рубеж: Обнаружение фишинга по изображениям

Обнаружение фишинговых сайтов на основе анализа изображений представляет собой перспективную альтернативу традиционным методам, поскольку позволяет выявлять вредоносные ресурсы путем непосредственного анализа визуального контента веб-страниц. В отличие от подходов, ориентированных на текстовые признаки, данный метод позволяет обнаруживать фишинговые атаки, даже если текстовые элементы отсутствуют, замаскированы или намеренно вводят в заблуждение. Это особенно актуально в связи с ростом использования изображений для обхода фильтров и маскировки вредоносного контента, что делает анализ визуальных характеристик критически важным для обеспечения безопасности пользователей.

Трансформерные архитектуры компьютерного зрения, такие как Vision Transformer (ViT-Base) и ConvNeXt-Tiny, демонстрируют высокую эффективность в задаче обнаружения фишинговых веб-страниц благодаря своей способности к параллельной обработке данных и моделированию глобальных зависимостей в изображениях. ViT-Base, основанный на механизме самовнимания, позволяет модели фокусироваться на релевантных участках изображения, игнорируя несущественные детали. ConvNeXt-Tiny, в свою очередь, сочетает в себе преимущества сверточных нейронных сетей и трансформеров, обеспечивая высокую скорость вычислений и точность классификации. Обе архитектуры способны извлекать сложные визуальные признаки, необходимые для выявления признаков фишинга, таких как поддельные логотипы, несоответствия в дизайне и визуальные манипуляции.

Модели, основанные на архитектуре Transformer, такие как ViT-Base и ConvNeXt-Tiny, способны выявлять сложные визуальные паттерны, характерные для фишинговых сайтов, даже при отсутствии или намеренном искажении текстовых признаков. Обучение на больших наборах данных изображений позволяет этим моделям идентифицировать визуальные несоответствия, такие как логотипы низкого качества, несоответствие брендинга, использование чужих изображений или неестественные графические элементы. Данные модели анализируют пиксельные данные и структурные характеристики изображений, что позволяет им обнаруживать фишинговые атаки, которые обходят традиционные методы, ориентированные на анализ текста и URL-адресов. Эффективность данного подхода особенно высока в случаях, когда злоумышленники активно маскируют текстовый контент или используют техники обфускации.

Анализ порогов для ViT-Base показывает, что модель эффективно различает различные уровни активации признаков.

Данные и обучение: Создание надежных визуальных детекторов

Для обучения эффективных детекторов фишинговых сайтов на основе изображений критически важна создание разнообразного и репрезентативного набора данных. В данном исследовании для сбора скриншотов используется инструмент Playwright, позволяющий автоматизировать процесс и обеспечить воспроизводимость. Дополнительно, набор данных пополняется информацией из общедоступных источников, таких как OpenPhish, содержащий сведения о подтвержденных фишинговых сайтах, и PhishIRIS Dataset, предоставляющий размеченный набор данных изображений веб-страниц, что позволяет увеличить объем и разнообразие обучающей выборки и повысить точность модели.

Для увеличения объема обучающей выборки и повышения обобщающей способности моделей обнаружения фишинга применяются методы аугментации данных. Данные техники включают в себя различные преобразования изображений, такие как случайные повороты, масштабирование, изменение яркости и контрастности, а также добавление шума. Эти преобразования позволяют искусственно расширить разнообразие данных, представляя модели больше вариаций входных изображений, что способствует улучшению их устойчивости к незначительным изменениям в реальных условиях эксплуатации и снижению вероятности переобучения.

Обучение моделей осуществлялось с использованием оптимизатора Adam, алгоритма, адаптирующего скорость обучения для каждого параметра на основе оценок первого и второго моментов градиента. В качестве функции потерь применялась бинарная кросс-энтропия L = - [y \log(p) + (1 - y) \log(1 - p)][ /latex], где y - истинная метка класса (0 или 1), а p - предсказанная вероятность принадлежности к классу 1. Минимизация функции потерь посредством градиентного спуска позволяет уменьшить расхождения между предсказанными значениями и фактическими метками, тем самым повышая точность обнаружения фишинговых сайтов.

За пределами точности: Оценка эффективности в реальном мире

В задачах выявления фишинговых сайтов, традиционная метрика точности (accuracy) может давать искаженное представление об эффективности детектора. Это связано с тем, что наборы данных, используемые для обучения и тестирования, как правило, значительно несбалансированы: количество легитимных веб-страниц на порядки превышает количество вредоносных. В таких условиях, модель может достигать высокой общей точности, просто правильно классифицируя подавляющее большинство легитимных сайтов, игнорируя при этом небольшое количество фишинговых ресурсов. Таким образом, высокая точность не гарантирует надежную защиту от фишинга, поскольку важнее всего - точно выявлять именно вредоносные сайты, даже если это сопровождается некоторым увеличением числа ложных срабатываний на легитимных ресурсах. Для адекватной оценки эффективности в подобных задачах необходимо использовать более информативные метрики, учитывающие баланс между точностью и полнотой выявления.

В рамках данного исследования применялась методология оценки, учитывающая пороги принятия решений, что позволило комплексно проанализировать производительность моделей обнаружения фишинговых сайтов. Вместо традиционной оценки, ориентированной на единственную точку, анализ проводился при различных уровнях чувствительности, позволяя оценить баланс между ложноположительными и ложноотрицательными результатами. Такой подход выявил, что оптимизация порога принятия решений существенно влияет на итоговые показатели, такие как точность и полнота, и позволяет более реалистично оценить эффективность детекторов в условиях реальных угроз. В частности, модели ConvNeXt-Tiny и ViT-Base демонстрировали различные оптимальные пороги, при которых достигались наилучшие результаты, что подчеркивает важность индивидуальной настройки каждого алгоритма.

Для всесторонней оценки эффективности детектора фишинговых страниц применялись метрики точности (Precision), полноты (Recall) и F1-мера, позволяющие минимизировать как ложноположительные, так и ложноотрицательные срабатывания. В ходе исследования модель ConvNeXt-Tiny продемонстрировала превосходные результаты, достигнув пикового значения F1-меры в 0.992 при оптимальном пороге в 0.8, что значительно превосходит аналогичный показатель ViT-Base, составивший 0.974 при том же пороге. Это свидетельствует о более высокой способности ConvNeXt-Tiny точно идентифицировать вредоносные веб-страницы, не ошибочно классифицируя легитимные ресурсы как опасные.

Исследование продемонстрировало, что модель ConvNeXt-Tiny превосходит ViT-Base в задачах обнаружения фишинговых веб-страниц. При пороговом значении 0.8, ConvNeXt-Tiny достигает точности 0.997 и полноты 0.984, что значительно выше, чем у ViT-Base, показатели которой составляют 0.977 и 0.880 соответственно. Такое превосходство указывает на более эффективную способность ConvNeXt-Tiny минимизировать как ложноположительные, так и ложноотрицательные срабатывания, что крайне важно для обеспечения надежной защиты пользователей от вредоносных веб-сайтов. Полученные результаты подчеркивают потенциал ConvNeXt-Tiny в качестве более эффективного инструмента для выявления фишинговых атак в реальных условиях.

Изучение баланса между точностью и эффективностью - вечная борьба. В данной работе, демонстрация превосходства ConvNeXt-Tiny над Vision Transformers в контексте обнаружения фишинга на основе изображений, лишь подтверждает старую истину: элегантная теория часто уступает практичной реализации. Авторы уделили внимание оптимизации пороговых значений, что, конечно, не ново, но весьма важно. Как говорил Джеффри Хинтон: «Я думаю, что в ближайшие пять-десять лет мы сможем научить машины делать всё, что умеют люди». Однако, всегда найдётся «продакшен», который напомнит, что идеальных решений не бывает, и даже самая передовая модель требует постоянной адаптации к реальным условиям. Особенно учитывая, что фишеры не дремлют и постоянно совершенствуют свои методы.

Что дальше?

Представленные результаты, демонстрирующие превосходство ConvNeXt-Tiny над Vision Transformers в задаче обнаружения фишинга по изображениям, кажутся закономерными. Однако, стоит помнить: каждая «оптимизация порога» - это лишь отсрочка неизбежного. Производственная среда всегда найдет способ подсунуть изображение, которое вызовет ложное срабатывание, и тогда все красивые графики точности превратятся в анекдот. Проблема не в архитектуре, а в данных - их изменчивости и непредсказуемости.

Вместо бесконечной гонки за незначительным улучшением метрик, возможно, стоит переосмыслить саму задачу. Нам не нужны более сложные модели - нам нужно меньше иллюзий относительно возможности «победить» фишинг исключительно анализом изображений. Пользовательский фактор, социальная инженерия и уязвимости в программном обеспечении останутся доминирующими векторами атак, независимо от того, насколько «умна» нейронная сеть.

В перспективе, вместо фокусировки на глубоком обучении, более продуктивным может оказаться исследование методов обнаружения аномалий в структуре веб-страниц, анализ поведения пользователей и разработка более эффективных систем предупреждения. В конечном итоге, каждая «революционная» технология станет просто новым видом техдолга, который придется оплачивать.

Оригинал статьи: https://arxiv.org/pdf/2604.13555.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-17 01:25