Фальшивые чеки и искусственный интеллект: кто лучше различает подделку?

Автор: Денис Аветисян

Новое исследование показывает, что люди хорошо распознают визуальные признаки сгенерированных ИИ документов, но автоматизированные системы, основанные на проверке арифметических данных, оказываются эффективнее в обнаружении подделок.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Искусственный интеллект способен генерировать визуально достоверные квитанции, имитирующие реалистичные шрифты, макеты и текстуру бумаги, однако при этом систематически допускает арифметические ошибки, незаметные при беглом взгляде, демонстрируя разрыв между визуальной правдоподобностью и фактической точностью.

Представлен набор данных GPT4o-Receipt и результаты исследования, демонстрирующие асимметрию в возможностях обнаружения поддельных чеков человеком и машиной.

Неочевидно, что люди лучше распознают признаки искусственного интеллекта в финансовых документах, чем сами модели машинного обучения. В работе ‘GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics’ представлен новый бенчмарк из 1235 изображений чеков, сгенерированных GPT-4o и взятых из существующих наборов данных, и проведено исследование с участием 30 аннотаторов и пяти современных мультимодальных LLM. Полученные результаты показывают парадоксальную ситуацию: люди лучше замечают визуальные артефакты, но хуже определяют поддельные документы, поскольку ключевым признаком являются арифметические ошибки, невидимые для человеческого глаза, но легко обнаруживаемые LLM. Может ли такой подход, основанный на верификации числовых данных, стать основой для надежных систем обнаружения подделок в сфере финансовых документов?

Эволюция Подделок: Новые Угрозы Финансовой Безопасности

Распространение контента, сгенерированного искусственным интеллектом, и в особенности фотореалистичных чеков, представляет собой растущую угрозу финансовой безопасности. Современные алгоритмы способны создавать изображения, практически неотличимые от подлинных документов, что существенно усложняет выявление мошеннических операций. Данные синтетические чеки могут использоваться для фальсификации расходов, получения неправомерных возмещений или обмана систем бухгалтерского учета. По мере совершенствования технологий генерации изображений, традиционные методы проверки, основанные на визуальном анализе и поиске физических дефектов, становятся все менее эффективными. Это требует разработки новых, более сложных методов обнаружения, способных анализировать семантическую целостность и числовую достоверность информации, представленной в электронных документах, для защиты финансовых институтов и потребителей от растущей угрозы цифрового мошенничества.

Традиционные методы криминалистической экспертизы, основанные на выявлении незначительных физических несоответствий в документах, демонстрируют все меньшую эффективность в борьбе с подделками, созданными с использованием искусственного интеллекта. Ранее специалисты могли выявить фальсификации по качеству бумаги, типу чернил, микроскопическим дефектам печати или несоответствиям в структуре волокон. Однако современные генеративные модели способны создавать изображения чеков, практически неотличимые от оригинала даже при тщательном визуальном анализе. Поскольку синтетические документы лишены физических артефактов, характерных для аналоговых копий, стандартные методы проверки оказываются бессильными, что требует разработки принципиально новых подходов к обнаружению подделок, ориентированных на анализ семантической целостности и числовой достоверности данных.

В связи с ростом реалистичности поддельных чеков, создаваемых с помощью искусственного интеллекта, возникает острая необходимость в разработке принципиально новых методов их обнаружения. Традиционные подходы, основанные на анализе физических характеристик бумаги или типографской краски, становятся все менее эффективными. Современные системы должны быть способны анализировать семантический смысл данных в чеке — логичность наименований товаров, соответствие сумм и количества, а также проверять числовую достоверность — выявлять несоответствия в расчетах, аномалии в НДС или другие признаки манипуляций с цифрами. Такой подход позволит обнаруживать подделки, которые визуально неотличимы от оригинала, и обеспечить более надежную защиту от финансовых махинаций.

Анализ частоты ошибок показал, что модель LLaMA 4 Scout практически не обнаруживает сгенерированные ИИ квитанции, что согласуется с её общей неспособностью к их идентификации, в то время как другие детекторы демонстрируют более высокие показатели ошибок (чем темнее красный цвет, тем выше частота ошибок).

Многомодальные LLM: Новый Взгляд на Криминалистическую Экспертизу

Многомодальные большие языковые модели (LLM) представляют собой перспективное решение для анализа подлинности чеков, объединяя визуальную и текстовую информацию. Традиционные методы проверки часто ограничены анализом только текста или изображения, в то время как многомодальные LLM способны комплексно оценивать как визуальные элементы (например, качество печати, наличие водяных знаков), так и текстовые данные (например, соответствие сумм, корректность дат и наименований товаров). Интеграция этих двух типов данных позволяет модели выявлять несоответствия, которые могут указывать на подделку или манипуляции с документом, повышая точность и надежность обнаружения фальсификаций.

Многомодальные языковые модели (LLM) применяют механизмы проверки фактической согласованности и арифметической верификации для выявления расхождений в документах, таких как чеки, которые не обнаруживаются традиционными методами. Проверка фактической согласованности подразумевает сопоставление информации, представленной в различных модальностях (например, текст и изображение), для выявления противоречий. Арифметическая верификация, в свою очередь, включает в себя проверку корректности математических операций, представленных в документе, таких как суммы и расчеты скидок, для выявления подделок или манипуляций с числами. Эти возможности позволяют моделям обнаруживать более сложные формы фальсификации, чем простое обнаружение несоответствий в тексте или визуальных артефактов.

Эффективность мультимодальных LLM в обнаружении поддельных квитанций напрямую зависит от их способности выявлять тонкие манипуляции, в частности, числовые галлюцинации — ошибки в числовых данных, которые могут быть незаметны при обычном анализе. На текущий момент модель Claude Sonnet 4 демонстрирует практически идеальную точность в обнаружении подобных подделок, достигая показателя F1-score в 0.975. Этот показатель указывает на высокую чувствительность и специфичность модели в выявлении числовых несоответствий и, следовательно, на её потенциал в автоматизированном контроле аутентичности финансовых документов.

Результаты показывают, что пять мультимодальных LLM демонстрируют различную производительность при распознавании информации на квитанциях GPT4o, при этом более низкий показатель ложных срабатываний (FPR) и более высокие значения точности, F1-меры и полноты указывают на лучшую производительность.

Определение Режимов Отказа: Галлюцинации и Реалистичные Подделки

Галлюцинации, как текстовые, так и числовые, представляют собой критические режимы отказа для генеративных моделей, используемых в обработке данных чеков. Эти галлюцинации приводят к генерации правдоподобных, но неточных данных, что может приводить к ошибкам в анализе финансовых отчетов и контроле расходов. Текстовые галлюцинации проявляются в виде неверных наименований товаров или услуг, в то время как числовые галлюцинации характеризуются неверными суммами, количеством или датами. Оба типа ошибок могут быть трудно обнаружимы при визуальном осмотре, что подчеркивает необходимость разработки надежных методов автоматической проверки целостности данных.

Набор данных GPT4o-Receipt функционирует как эталонный для оценки устойчивости методов криминалистической экспертизы к манипуляциям, осуществляемым генеративными моделями. Он содержит как оригинальные данные чеков, так и их синтетические копии, созданные с использованием различных алгоритмов, что позволяет проводить количественную оценку эффективности детекторов в выявлении подделок. Набор данных предназначен для тестирования способности алгоритмов различать аутентичные и сгенерированные данные, а также для выявления слабых мест в существующих методах обнаружения, что критически важно для обеспечения надежности систем обработки чеков и предотвращения мошенничества.

Для повышения надежности оценки реалистичности сгенерированных изображений используются передовые методы, включающие анализ ошибки реконструкции диффузионной модели и использование признаков, полученных с помощью CLIP. Данные методы позволяют более точно выявлять манипуляции и фальсификации. В частности, модель Claude Sonnet 4 демонстрирует высокую эффективность в обнаружении сгенерированных ИИ-изображений чеков, достигая показателя полноты (recall) в 0.972, что подтверждает ее способность к точной идентификации фальсификаций.

Арифметическое упрочнение незначительно влияет на производительность обнаружения моделей Claude Sonnet 4, Gemini 2.5 Flash и Grok 4, что указывает на их использование нескольких каналов анализа, в то время как GPT-5 Nano и LLaMA 4 Scout в большей степени зависят от арифметических сигналов и демонстрируют снижение производительности <span class="katex-eq" data-katex-display="false">F_1</span> после применения упрочнения. — Арифметическое упрочнение незначительно влияет на производительность обнаружения моделей Claude Sonnet 4, Gemini 2.5 Flash и Grok 4, что указывает на их использование нескольких каналов анализа, в то время как GPT-5 Nano и LLaMA 4 Scout в большей степени зависят от арифметических сигналов и демонстрируют снижение производительности $F_1$ после применения упрочнения.

Проверка Подлинности: Человеческое Восприятие и Продвинутый Анализ

Исследования человеческого восприятия играют ключевую роль в оценке реалистичности сгенерированных чеков и выявлении тонких артефактов, которые могут быть незаметны для автоматизированных систем. В отличие от алгоритмов, ориентированных на конкретные признаки подделки, люди способны к более комплексному анализу визуальных элементов, обнаруживая несоответствия в текстурах, освещении и общем эстетическом качестве изображения. Эти субъективные оценки критически важны для валидации результатов автоматизированного анализа и повышения надежности криминалистической экспертизы, поскольку позволяют учесть нюансы, которые не поддаются формализации в алгоритмах.

Сочетание экспертной оценки, проводимой человеком, с автоматизированными методами, такими как анализ частотных характеристик изображения (frequency perception head analysis), позволяет существенно повысить точность форензической экспертизы. Человеческий фактор важен для выявления тонких артефактов, которые могут быть упущены алгоритмами, в то время как автоматизированный анализ обеспечивает объективность и скорость обработки больших объемов данных. Комбинированный подход позволяет верифицировать подлинность документов, выявляя несоответствия и признаки манипуляций, которые не были бы заметны при использовании только одного из методов.

Безобусловное (zero-shot) обнаружение подделок, использующее мультимодальные большие языковые модели (LLM) без предварительного обучения на конкретных типах фальсификаций, представляет собой значительный шаг вперёд в адаптивности систем. В ходе сравнительных исследований, производительность человека-эксперта, оценивающего подлинность документов, по метрике F1-score оказалась ниже, чем у модели Claude Sonnet 4. Это демонстрирует превосходство искусственного интеллекта в обнаружении подделок, даже в случаях, когда модель не была специально обучена на данных, относящихся к конкретному типу фальсификации, что указывает на её способность к обобщению и выявлению аномалий на основе общих признаков.

Сравнительный анализ детекторов показал, что Claude Sonnet 4 обеспечивает наивысшую общую точность (<span class="katex-eq" data-katex-display="false">F1 = 0.975</span>), Gemini 2.5 Flash демонстрирует лучшую калибровку (<span class="katex-eq" data-katex-display="false">FPR = 0.023</span>), Grok 4 достигает почти идеальной полноты при относительно высоком уровне ложных срабатываний (<span class="katex-eq" data-katex-display="false">90.3%</span>), а LLaMA 4 Scout характеризуется минимальным уровнем ложных срабатываний, но пропускает большинство записей об использовании ИИ, в то время как результаты работы экспертов-людей находятся на среднем уровне по обоим показателям. — Сравнительный анализ детекторов показал, что Claude Sonnet 4 обеспечивает наивысшую общую точность ( $F1 = 0.975$ ), Gemini 2.5 Flash демонстрирует лучшую калибровку ( $FPR = 0.023$ ), Grok 4 достигает почти идеальной полноты при относительно высоком уровне ложных срабатываний ( $90.3%$ ), а LLaMA 4 Scout характеризуется минимальным уровнем ложных срабатываний, но пропускает большинство записей об использовании ИИ, в то время как результаты работы экспертов-людей находятся на среднем уровне по обоим показателям.

Будущие Направления: К Надежному и Адаптивному Обнаружению

Постоянное соревнование между созданием подделок и методами их обнаружения требует непрерывного развития криминалистических технологий. Злоумышленники постоянно совершенствуют способы манипулирования данными, стремясь обойти существующие системы защиты, что, в свою очередь, вынуждает исследователей искать новые, более эффективные подходы к выявлению подделок. Этот процесс представляет собой динамичную “гонку вооружений”, где успех зависит от способности быстро адаптироваться к возникающим угрозам и предугадывать будущие тенденции в области фальсификаций. Разработка инновационных методов анализа и верификации данных становится критически важной для обеспечения достоверности информации и защиты от мошенничества в различных сферах — от цифровой безопасности и правоохранительной деятельности до научных исследований и коммерции.

Перспективные исследования в области выявления подделок должны быть сосредоточены на создании более устойчивых методов, способных противостоять все более изощренным манипуляциям с данными. В условиях постоянной эволюции технологий фальсификации, традиционные подходы, полагающиеся на фиксированные признаки, становятся все менее эффективными. Необходима разработка алгоритмов, которые не просто обнаруживают известные типы подделок, но и способны адаптироваться к новым, ранее невиданным методам манипулирования. Особое внимание следует уделить техникам, использующим многоканальный анализ и учитывающим сложные взаимосвязи между различными характеристиками данных, что позволит повысить устойчивость к попыткам обхода системы обнаружения. Разработка таких методов станет ключевым фактором в поддержании безопасности и достоверности информации в будущем.

В условиях постоянно меняющегося ландшафта цифровых подделок, системы адаптивного обнаружения представляются критически важными для поддержания безопасности. Исследования показывают, что современные модели, такие как Claude Sonnet 4, демонстрируют впечатляющую устойчивость, сохраняя более 94% своей способности выявлять манипуляции даже при отсутствии традиционных арифметических сигналов. Этот результат подчеркивает значимость использования многоканальных методов анализа, позволяющих модели опираться на различные признаки и паттерны, а не на единственный источник информации. Способность к обучению и адаптации к новым видам подделок, таким образом, становится ключевым фактором в борьбе с фальсификацией и обеспечении достоверности цифрового контента.

Исследование, представленное в работе, подчеркивает асимметрию в возможностях обнаружения подделок — люди преуспевают в визуальной идентификации, в то время как автоматизированные системы, основанные на арифметической проверке, демонстрируют более высокую эффективность. Эта особенность напоминает о сложности систем и их способности к адаптации. Анри Пуанкаре однажды заметил: «Математика — это искусство находить логику в неожиданных местах». В контексте данной работы, арифметическая проверка выступает как логичный инструмент обнаружения несоответствий в сгенерированных документах, раскрывая скрытые ошибки и несоответствия, которые ускользают от человеческого взгляда. Как и любая система, созданная человеком, сгенерированные документы подвержены ошибкам, и обнаружение этих ошибок — ключ к повышению их надежности и зрелости.

Куда Ведет Дорога?

Представленная работа, как и любая попытка зафиксировать ускользающую реальность, обнажает не столько ответы, сколько новые вопросы. Выявление асимметрии между человеческим глазом, превосходно распознающим визуальные артефакты, и машинным анализом арифметической корректности, не является триумфом одной из сторон, а скорее констатацией неизбежной эволюции подделок. Каждая архитектура, будь то нейронная сеть или человеческий мозг, проживает свою жизнь, а мы лишь свидетели ее адаптации к постоянно меняющимся условиям.

Очевидно, что фокус на арифметической верификации — лишь временный рубеж. Искусственный интеллект, генерирующий документы, неминуемо научится обходить эти проверки, создавая подделки, которые будут математически безупречны, но визуально неуловимо фальшивы. Неизбежно возникнет гонка вооружений, в которой каждая сторона будет опережать другую на краткий миг, прежде чем вновь оказаться в тени.

Улучшения стареют быстрее, чем мы успеваем их понять. Поэтому, вместо того чтобы стремиться к абсолютному обнаружению подделок, более продуктивным представляется изучение природы обмана, а также исследование устойчивости систем к намеренным искажениям. В конечном итоге, важна не столько способность выявлять ложь, сколько способность сосуществовать с ней, осознавая ее неизбежность.

Оригинал статьи: https://arxiv.org/pdf/2603.11442.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-13 18:19