Искусственный глаз: DinoLizer находит подделки на изображениях

Автор: Денис Аветисян


Новая модель, основанная на Vision Transformers, позволяет с высокой точностью обнаруживать области, подвергшиеся манипуляциям при генеративном редактировании изображений.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал

DinoLizer использует предварительно обученную модель DINOv2 и легкую классификационную голову для локализации изменений и обеспечения устойчивости к искажениям.

Обнаружение манипуляций в изображениях, сгенерированных современными моделями, представляет собой сложную задачу, требующую высокой точности локализации. В данной работе представлена модель DinoLizer: Learning from the Best for Generative Inpainting Localization, использующая архитектуру Vision Transformer и предварительно обученную сеть DINOv2 для эффективного выделения измененных областей. Предложенный подход демонстрирует превосходство над существующими методами, достигая значительного улучшения метрики IoU и сохраняя устойчивость к различным видам постобработки изображений. Может ли DinoLizer стать основой для надежных систем обнаружения подделок и защиты от манипулирования визуальным контентом?


Современные подделки: вызов для систем обнаружения

Современные методы выявления подделок сталкиваются с серьезными трудностями при анализе изображений, подвергшихся воздействию генеративных техник восстановления (inpainting). В отличие от классических подделок, оставляющих заметные следы манипуляций, современные алгоритмы способны реалистично воссоздавать недостающие фрагменты изображения, практически не оставляя видимых артефактов. Это создает принципиально новую проблему для систем обнаружения, поскольку традиционные подходы, основанные на поиске несоответствий и аномалий, оказываются неэффективными против столь искусно выполненных подделок. Такие методы восстановления способны генерировать правдоподобный контент, который сложно отличить от оригинального, что делает выявление подделок все более сложной задачей и требует разработки принципиально новых подходов к анализу изображений.

Существующие методы обнаружения подделок часто полагаются на семантические признаки, что приводит к ложным срабатываниям и недостаточной надежности. Эта проблема усугубляется использованием обучающих наборов данных, содержащих так называемую «семантическую предвзятость». По сути, алгоритмы учатся идентифицировать не подделку как таковую, а скорее несоответствие ожидаемым семантическим категориям. Например, если в обучающей выборке большинство изображений кошек изображают их на траве, алгоритм может ошибочно пометить изображение кошки на асфальте как подделку, даже если оно абсолютно законно. Такая зависимость от семантики делает системы уязвимыми к небольшим изменениям в контексте изображения и ограничивает их способность выявлять более сложные и тонкие манипуляции, что требует разработки подходов, не зависящих от интерпретации смысла изображения.

Суть проблемы выявления подделок, созданных с использованием генеративного восстановления изображений, заключается не в поиске очевидных артефактов, а в обнаружении едва уловимых несоответствий, возникающих в процессе восстановления. Традиционные методы, ориентированные на поиск грубых ошибок, оказываются неэффективными, поскольку современные алгоритмы способны создавать реалистичные изображения без видимых дефектов. Необходимо разработать более тонкий подход, способный анализировать изображение на предмет едва заметных изменений в текстуре, освещении или перспективе — тех деталей, которые могут указывать на манипуляции, невидимые для человеческого глаза и большинства существующих алгоритмов. Именно выявление этих нюансов представляет собой ключевую задачу в борьбе с современными, высококачественными подделками.

DinoLizer: Vision Transformer для обнаружения подделок

В основе DinoLizer лежит архитектура Vision Transformer (ViT), конкретно — модель DINOv2, используемая в качестве базового компонента для извлечения надежных признаков. DINOv2 представляет собой самообучающуюся модель, предварительно обученную на большом наборе данных изображений без учителя, что позволяет ей эффективно извлекать общие признаки и паттерны из входных данных. Использование трансформерной архитектуры позволяет модели учитывать глобальный контекст изображения, в отличие от традиционных сверточных нейронных сетей, что критически важно для выявления тонких манипуляций и подделок. Предварительное обучение DINOv2 значительно повышает точность и устойчивость DinoLizer к различным типам артефактов и искажений.

В основе обработки изображений в DinoLizer лежит стратегия «скользящего окна» (Sliding Window Strategy). Исходное изображение разбивается на множество неперекрывающихся фрагментов (patches), каждый из которых преобразуется в векторное представление, называемое «patch embeddings». Этот подход позволяет обрабатывать изображения большого размера, избегая ограничений по памяти, связанных с обработкой всего изображения целиком. Каждый patch embedding представляет собой компактное описание локальной информации в соответствующем фрагменте изображения и служит входным сигналом для последующих слоев Vision Transformer.

После извлечения признаков с помощью архитектуры Vision Transformer (ViT), полученные патч-вложения передаются в линейный классификатор. Этот классификатор представляет собой полносвязный слой, преобразующий векторные представления патчей в оценку вероятности манипуляции. Использование линейного классификатора позволяет эффективно использовать мощные репрезентативные возможности трансформера, преобразуя сложные признаки, извлеченные из изображения, в простую вероятность, указывающую на наличие признаков подделки. Выход классификатора представляет собой скалярное значение в диапазоне от 0 до 1, которое интерпретируется как уверенность модели в том, что данный патч был подвергнут манипуляциям.

В DinoLizer для корректного изменения размеров изображений используется интерполяция Ланцоша. Этот метод обеспечивает высокую точность ресэмплинга, минимизируя появление артефактов, которые могли бы быть ошибочно интерпретированы как признаки манипуляции. В отличие от более простых методов интерполяции, таких как билинейная или бикубическая, интерполяция Ланцоша использует взвешенное среднее значений пикселей из более широкой области, что позволяет сохранить детали и избежать ступенчатости или размытости, которые могли бы имитировать следы подделки. Это особенно важно при анализе изображений с высокой степенью сжатия или низким разрешением, где артефакты сжатия могут быть схожи с признаками манипуляций.

Обучение и оптимизация для повышения устойчивости

Обучение модели производится с использованием функции потерь Dice Loss, которая фокусируется на измерении степени пересечения между предсказанной и истинной маской манипуляции. В отличие от стандартных функций потерь, таких как кросс-энтропия, Dice Loss напрямую оптимизирует метрику Intersection-over-Union (IoU), что приводит к более точной локализации областей подделки на изображении. Функция потерь $Dice Loss = 2 * |X \cap Y| / (|X| + |Y|)$ где X — предсказанная маска, а Y — истинная маска, позволяет модели более эффективно изучать границы объектов и повышает устойчивость к шуму и небольшим неточностям в сегментации.

Для повышения производительности в архитектуру DINOv2 внедрены ‘Register Tokens’ — дополнительные обучаемые параметры. Эти токены представляют собой векторы, добавляемые к признакам, извлекаемым из DINOv2, и позволяют модели более гибко адаптироваться к особенностям входных данных. Увеличение количества обучаемых параметров способствует более точному моделированию сложных взаимосвязей в данных, что приводит к улучшению способности модели к обнаружению и локализации подделок. Эффективность использования Register Tokens заключается в расширении выразительной способности сети без существенного увеличения вычислительной сложности.

Обучение модели в значительной степени опирается на датасет B-Free, специально разработанный для минимизации семантических искажений и предоставления реалистичных примеров подделок. Данный датасет содержит разнообразные изображения с манипуляциями, направленными на снижение влияния предвзятости, возникающей из-за типичных семантических паттернов, которые могут привести к ложноположительным результатам. Реалистичность примеров в B-Free достигается путем использования процедур, имитирующих распространенные методы цифровой подделки, что позволяет модели эффективно обучаться на данных, приближенных к реальным сценариям, и повышать точность обнаружения локализованных манипуляций.

Сравнительный анализ архитектуры DinoLizer, основанной на DINOv2, с моделью DINOv3 продемонстрировал ее превосходство в задаче локализованного обнаружения подделок. В ходе экспериментов DinoLizer показала в среднем на 12% более высокое значение метрики Intersection-over-Union (IoU) по сравнению с существующими передовыми методами. Данный показатель подтверждает эффективность предложенной архитектуры в точной локализации манипулированных областей на изображениях и свидетельствует о значительном улучшении результатов обнаружения по сравнению с альтернативными подходами, использующими DINOv3.

Расширяя горизонты: Sparse Transformers и будущие направления

Архитектура SparseViT представляет собой перспективный подход к повышению эффективности и масштабируемости моделей обработки изображений. В отличие от традиционных Transformer-сетей, использующих плотные карты самовнимания, SparseViT применяет разреженные карты, что значительно снижает вычислительные затраты и требования к памяти. Этот метод позволяет модели концентрироваться на наиболее релевантных частях изображения, игнорируя несущественные детали. Благодаря этому, SparseViT способен обрабатывать изображения высокого разрешения и большие объемы данных с меньшими ресурсами, открывая возможности для применения в задачах, требующих высокой производительности и масштабируемости, таких как анализ спутниковых снимков или обработка видеопотоков в реальном времени. Такой подход позволяет создавать более эффективные и доступные системы искусственного интеллекта.

Для создания более совершенной системы обнаружения подделок предлагается объединение архитектуры SparseViT с проверенными методами извлечения признаков, такими как Noiseprint++, и генеративными моделями, в частности, вариационными автоэнкодерами (VAE). Такой подход позволяет не только эффективно обрабатывать большие объемы данных благодаря разреженному механизму внимания SparseViT, но и улавливать тонкие артефакты манипуляций, которые могут быть упущены при использовании отдельных методов. Noiseprint++ обеспечивает надежное извлечение признаков, связанных с шумом сенсора, в то время как VAE способны реконструировать исходное изображение и выявлять несоответствия, указывающие на подделку. Комбинируя эти технологии, можно значительно повысить точность и надежность системы обнаружения, обеспечивая комплексный анализ изображений и выявление даже незначительных изменений.

Влияние артефактов сжатия JPEG на точность обнаружения подделок подчеркивает необходимость разработки устойчивых методов извлечения признаков и техник увеличения объема данных. Исследования показывают, что распространенное сжатие изображений в формате JPEG вносит характерные искажения, которые могут маскировать или имитировать следы манипуляций, вводя систему в заблуждение. Для решения этой проблемы активно разрабатываются алгоритмы извлечения признаков, невосприимчивые к подобным артефактам, а также стратегии увеличения обучающей выборки посредством добавления изображений, подвергшихся различным уровням сжатия JPEG. Это позволяет модели научиться игнорировать шумы, вызванные сжатием, и сосредоточиться на реальных признаках подделки, существенно повышая надежность системы обнаружения.

Анализ работы модели DinoLizer на различных наборах данных демонстрирует её высокую точность в локализации изменений. В частности, на наборе B-Free, модель выявляет модификации в среднем в 59% пикселей внутри затронутых областей, что свидетельствует о способности обнаруживать даже незначительные вмешательства. На другом наборе данных, TGIF, средний размер маски, определяющей область манипуляции, составляет всего 12%, что подтверждает способность модели к точному определению границ измененных фрагментов изображения. Эти результаты указывают на эффективность DinoLizer в обнаружении и локализации даже небольших манипуляций, что критически важно для задач, требующих высокой точности, таких как верификация подлинности изображений и выявление цифровых подделок.

Исследование демонстрирует, как предварительно обученная модель DINOv2, лежащая в основе DinoLizer, способна эффективно выявлять манипуляции в изображениях, восстановленных генеративным заполнением. Этот подход, использующий возможности самообучения, позволяет достичь впечатляющей устойчивости к различным искажениям. Как метко заметил Дэвид Марр: «В конечном счёте, все модели — это упрощения реальности». DinoLizer — это очередное подтверждение этого принципа. Авторы успешно применили упрощение в виде Vision Transformer и классификационной головы, получив при этом state-of-the-art результаты в локализации подделок. И пусть это не идеальное отражение действительности, но вполне рабочий инструмент, пока продакшен не найдет способ его сломать.

Что дальше?

Представленная работа, безусловно, демонстрирует неплохую точность локализации манипуляций в задачах генеративного восстановления изображений. Однако, стоит помнить: каждая архитектура, даже построенная на базе самообучающихся моделей вроде DINOv2, неизбежно становится узким местом. Продакшен всегда найдёт способ подать данные, которые вызовут неожиданное поведение, и «робастность», заявленная в статье, — это лишь отсрочка неизбежного технического долга. Вероятно, будущие исследования столкнутся с необходимостью учитывать не только что изменено на изображении, но и как эти изменения были внесены — ведь инструменты для подделки становятся всё более изощрёнными.

Вместо бесконечной гонки за точностью, возможно, стоит переключиться на разработку методов, позволяющих оценивать степень доверия к восстановленным областям. Иначе говоря, не просто говорить: «Вот где подделано», а говорить: «Вот где мы предполагаем, что подделано, с вероятностью X%». Если код выглядит идеально — значит, его ещё никто не деплоил, и реальные данные ещё не успели показать все его недостатки.

И, конечно, стоит помнить о вычислительных затратах. Элегантные решения, построенные на Vision Transformers, часто оказываются дорогими способами всё усложнить. В конечном итоге, практическая ценность модели будет определяться не только её точностью, но и её способностью работать в условиях ограниченных ресурсов. Каждая «революционная» технология завтра станет техдолгом.


Оригинал статьи: https://arxiv.org/pdf/2511.20722.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-01 01:47