Обучение языковых моделей для выявления мошенничества: новый подход

Автор: Денис Аветисян


Исследователи продемонстрировали, что современные языковые модели можно эффективно обучить для выявления мошеннических операций по кредитным картам, используя только данные о транзакциях.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
Цикл обучения с подкреплением, представленный на схеме, позволяет модели выявлять мошеннические операции, извлекая разнообразные сигналы доверия и риска из исходных данных, синтезируя доказательства относительно скрытого порога для вынесения решения и используя сигналы вознаграждения, полученные из фактических меток, для обратной передачи и обновления параметров, что позволяет неявно оценивать релевантность сигналов и калибровать специфичные для предметной области границы принятия решений.
Цикл обучения с подкреплением, представленный на схеме, позволяет модели выявлять мошеннические операции, извлекая разнообразные сигналы доверия и риска из исходных данных, синтезируя доказательства относительно скрытого порога для вынесения решения и используя сигналы вознаграждения, полученные из фактических меток, для обратной передачи и обновления параметров, что позволяет неявно оценивать релевантность сигналов и калибровать специфичные для предметной области границы принятия решений.

Применение обучения с подкреплением позволяет добиться высокой точности и интерпретируемости моделей, причем небольшие специализированные модели могут превосходить более крупные.

Несмотря на теоретический потенциал больших языковых моделей (LLM) в обнаружении мошеннических операций, их практическое применение в реальных финансовых контекстах остается недостаточно изученным. В статье ‘Reinforcement Learning of Large Language Models for Interpretable Credit Card Fraud Detection’ предложен новый подход, использующий обучение с подкреплением (RL) для дообучения компактных языковых моделей непосредственно на сырых данных о транзакциях. Показано, что применение алгоритма GSPO с разработанной системой вознаграждений позволяет значительно повысить точность обнаружения мошенничества, причем даже небольшие модели демонстрируют превосходство над более крупными. Какие еще скрытые закономерности и индикаторы мошеннических действий могут быть выявлены с помощью подобных методов обучения, ориентированных на интерпретируемость и адаптацию к специфике финансовых данных?


Растущая Угроза Мошенничества в Электронной Коммерции

Резкий рост числа онлайн-транзакций, обусловленный глобальной цифровизацией и пандемией, создал благоприятную среду для развития мошенничества с кредитными картами. Если ранее злоумышленники действовали преимущественно в ограниченных масштабах, то сейчас наблюдается значительное увеличение как объема, так и сложности атак. Этот феномен объясняется не только возросшим количеством потенциальных жертв, но и появлением новых технологий, позволяющих автоматизировать и маскировать мошеннические действия. Злоумышленники активно используют сложные схемы, включая фишинговые атаки, взлом баз данных и компрометацию онлайн-магазинов, чтобы получить доступ к конфиденциальной информации о банковских картах. В результате, традиционные методы защиты, основанные на анализе отдельных транзакций, оказываются все менее эффективными в борьбе с постоянно эволюционирующими угрозами.

Традиционные методы обнаружения мошеннических операций в электронной коммерции, основанные на анализе структурированных данных и ручном выделении признаков, всё чаще оказываются неэффективными перед лицом растущего масштаба и сложности современных атак. Эти системы, как правило, разрабатываются для выявления известных паттернов мошенничества, но не способны адаптироваться к новым, быстро меняющимся тактикам злоумышленников. Огромный объём транзакций, обрабатываемый ежедневно, и утончённость используемых мошенниками техник обхода защиты приводят к тому, что значительное количество случаев мошенничества остаётся незамеченным, нанося существенный ущерб как продавцам, так и покупателям. Неспособность эффективно масштабироваться и обрабатывать неструктурированные данные становится критическим ограничением для существующих систем, требуя разработки более гибких и интеллектуальных подходов к обнаружению мошеннических действий.

Традиционные методы выявления мошеннических операций в электронной коммерции зачастую оказываются неэффективными из-за неспособности анализировать неструктурированные текстовые данные, сопровождающие транзакции. Информация, содержащаяся в описаниях товаров, комментариях покупателей или даже в переписке со службой поддержки, может содержать скрытые сигналы о потенциальном мошенничестве — необычные фразы, несоответствия в деталях или попытки обхода правил. Стандартные алгоритмы, ориентированные на количественные показатели, упускают из виду эти тонкие нюансы, что позволяет злоумышленникам успешно маскировать свои действия. Исследования показывают, что применение методов обработки естественного языка и анализа тональности к этим текстовым данным значительно повышает точность выявления мошеннических схем и позволяет предотвратить финансовые потери.

Для обучения моделей обнаружения мошенничества используется шаблон запроса, структурированный для эффективной идентификации подозрительной активности.
Для обучения моделей обнаружения мошенничества используется шаблон запроса, структурированный для эффективной идентификации подозрительной активности.

Большие Языковые Модели: Новый Подход к Обнаружению Мошенничества

Большие языковые модели (БЯМ) представляют собой перспективную альтернативу традиционным методам обнаружения мошеннических операций, поскольку способны анализировать и интерпретировать контекст финансовых транзакций. В отличие от систем, основанных на жестко заданных правилах или статистических паттернах, БЯМ могут учитывать сложные взаимосвязи между различными параметрами транзакции, включая сумму, время, местоположение, историю пользователя и характеристики участвующих сторон. Это позволяет им выявлять аномалии и потенциально мошеннические действия, которые могут быть не обнаружены другими методами. Способность к пониманию естественного языка также позволяет БЯМ анализировать текстовые данные, такие как описания транзакций или сообщения пользователей, для выявления признаков мошенничества.

Большие языковые модели (LLM) склонны к «галлюцинациям» — генерации неверной или бессмысленной информации, что представляет серьезную проблему для критически важных приложений, таких как обнаружение мошеннических операций. Это проявляется в создании фактов, не подтвержденных входными данными, или в логических ошибках при анализе транзакций. В контексте финансовых операций, даже незначительные неточности, сгенерированные LLM, могут привести к ложным срабатываниям сигнализации о мошенничестве или, что более опасно, к пропуску реальных случаев мошеннической активности, что делает надежность и точность LLM первостепенной задачей.

Для повышения надежности больших языковых моделей (LLM) в задачах обнаружения мошенничества, необходимо использовать метод последовательного рассуждения, известный как Chain-of-Thought Reasoning (CoT). Этот подход заключается в том, чтобы обучить модель не просто выдавать конечный результат, но и генерировать промежуточные этапы логических умозаключений, объясняющие, каким образом она пришла к этому выводу. В процессе обучения CoT, модели предоставляются примеры, демонстрирующие не только входные данные и целевой ответ, но и подробное описание шагов, необходимых для перехода от входных данных к ответу. Это позволяет LLM не только выявлять закономерности в данных, но и воспроизводить процесс принятия решений, что повышает прозрачность и точность результатов, критически важных для задач, связанных с финансовой безопасностью.

В рамках обучения с подкреплением GSPO для обнаружения мошеннических операций, модель формирует набор возможных ответов для каждой транзакции, оценивает их на основе реальной метки, вычисляет преимущества с учетом групповой относительности и использует эти преимущества для оптимизации параметров модели, повышая точность рассуждений и вердиктов.
В рамках обучения с подкреплением GSPO для обнаружения мошеннических операций, модель формирует набор возможных ответов для каждой транзакции, оценивает их на основе реальной метки, вычисляет преимущества с учетом групповой относительности и использует эти преимущества для оптимизации параметров модели, повышая точность рассуждений и вердиктов.

Обучение с Подкреплением для LLM-Основанного Обнаружения Мошенничества

Обучение с подкреплением (RL) предоставляет эффективный механизм для дообучения больших языковых моделей (LLM), основанный на оптимизации функции вознаграждения. Этот подход позволяет не просто корректировать прогнозы модели, но и формировать процесс рассуждений, стимулируя LLM к предоставлению не только верных ответов, но и логически обоснованных, структурированных объяснений. Функция вознаграждения, таким образом, оценивает как точность предсказания (например, правильное определение мошеннической транзакции), так и качество самого процесса рассуждений, что способствует повышению надежности и интерпретируемости модели.

Сигнал вознаграждения в процессе обучения с подкреплением (RL) для LLM-моделей обнаружения мошенничества состоит из нескольких компонентов, направленных на оптимизацию не только точности предсказания (правильное определение факта мошенничества или его отсутствия), но и структуры рассуждений модели. Это достигается путем включения в сигнал вознаграждения оценок, отражающих когерентность и логическую последовательность шагов, которые модель предпринимает для обоснования своего решения. Такой подход позволяет модели не просто выдавать правильный ответ, но и демонстрировать понятный и обоснованный процесс принятия решения, что повышает надежность и интерпретируемость результатов.

В ходе экспериментов было продемонстрировано значительное повышение метрики F1-score при использовании обучения с подкреплением (RL) для дообучения больших языковых моделей (LLM). В частности, модель Qwen3-4B показала прирост до 120.90%, Qwen3-8B — 98.35%, а Qwen3-14B достигла улучшения в 105.27% метрики F1-score. Данные результаты подтверждают эффективность применения RL для повышения точности и производительности LLM в задачах обнаружения мошеннических операций.

Обучение моделей с использованием GSPO значительно улучшает их производительность по показателям Recall, Specificity, F1-Score и снижает склонность к галлюцинациям по сравнению с исходными моделями.
Обучение моделей с использованием GSPO значительно улучшает их производительность по показателям Recall, Specificity, F1-Score и снижает склонность к галлюцинациям по сравнению с исходными моделями.

За Пределами Точности: Интерпретируемость и Перспективы Развития

Обучение с подкреплением (RL) позволило значительно повысить прозрачность работы больших языковых моделей (LLM) при выявлении мошеннических операций. В отличие от традиционных «черных ящиков», RL-настроенные модели генерируют явные цепочки рассуждений, объясняющие, каким образом было принято решение о классификации конкретной транзакции как мошеннической или законной. Это позволяет аналитикам по борьбе с мошенничеством не просто полагаться на результат, предсказанный моделью, но и понимать логику, лежащую в основе этого решения, что способствует повышению доверия к системе, выявлению потенциальных ошибок и более эффективному реагированию на новые типы мошеннических схем. Такая интерпретируемость является ключевым фактором для внедрения LLM в критически важные области, где понимание процесса принятия решений не менее важно, чем сама точность прогнозов.

Исследования показали значительное сокращение средней длины генерируемых ответов благодаря применению обучения с подкреплением (RL) к языковым моделям Qwen3. В частности, модель Qwen3-4B продемонстрировала впечатляющее снижение длины ответов на 62,92%, в то время как Qwen3-8B и Qwen3-14B зафиксировали уменьшение на 28,60% и 29,13% соответственно. Это укорочение не только повышает эффективность обработки информации, но и способствует более лаконичным и понятным результатам, что особенно важно в задачах, требующих быстрого анализа и принятия решений.

Исследования показали, что применение метода обучения с подкреплением (RL) к модели Qwen3-8B привело к значительному повышению её способности к точной идентификации негативных случаев, что измеряется показателем специфичности (True Negative Rate). В частности, зафиксировано поразительное увеличение специфичности на 336.14%. Это означает, что модель, прошедшая RL-тонкую настройку, демонстрирует существенно более высокую способность правильно определять отсутствующие случаи мошенничества, минимизируя количество ложных срабатываний. Такое улучшение имеет критическое значение для практического применения модели в системах обнаружения мошенничества, где точная идентификация негативных примеров не менее важна, чем обнаружение позитивных.

Модель Qwen3-14B, обученная на основе сигналов риска и доверия, сформированных экспертами по борьбе с мошенничеством, генерирует лаконичные ответы для сжатой конфигурации.
Модель Qwen3-14B, обученная на основе сигналов риска и доверия, сформированных экспертами по борьбе с мошенничеством, генерирует лаконичные ответы для сжатой конфигурации.

В представленной работе наблюдается стремление к оптимизации моделей для обнаружения мошеннических операций с кредитными картами. Удивительно, что авторы демонстрируют превосходство специализированных, меньших по размеру моделей над более крупными аналогами. Это подтверждает давнюю истину: избыточная сложность не всегда ведет к лучшим результатам. Как однажды заметила Грейс Хоппер: «Лучшее, что можно сделать с проблемой, — это ее решить». В данном случае, решение заключается не в наращивании масштаба, а в тонкой настройке и последовательной оптимизации, что позволяет добиться высокой точности и интерпретируемости, избегая ненужной сложности в системах финансового контроля.

Что дальше?

Представленная работа, как и большинство, лишь обнажает глубину нерешенных вопросов. Достижение высокой точности в обнаружении мошеннических операций — это, конечно, полезно, но истинная ценность кроется в понимании почему. Использование обучения с подкреплением для “принуждения” больших языковых моделей к интерпретируемости — парадоксальный подход. Кажется, что мы ищем порядок в хаосе, создавая иллюзию понимания. Следующим шагом представляется не увеличение размеров моделей, а радикальное упрощение — поиск минимально достаточной сложности, способной адекватно отражать реальные процессы.

Вопрос о превосходстве меньших, специализированных моделей над их крупными аналогами, безусловно, заслуживает дальнейшего изучения. Возможно, мы переоцениваем универсальность больших моделей, забывая о том, что специализация — это не ограничение, а проявление глубокого понимания предметной области. Стоит пересмотреть критерии оценки — не только точность, но и вычислительные затраты, энергоэффективность и, самое главное, прозрачность принимаемых решений.

В конечном счете, задача финансового контроля — это не только выявление мошеннических операций, но и предотвращение их возникновения. Следует сместить фокус с реактивного обнаружения на проактивное прогнозирование, используя не только исторические данные о транзакциях, но и информацию о поведении пользователей, их предпочтениях и социальных связях. Простота — не слабость, а признак зрелости. И в этом кроется истинный путь к совершенству.


Оригинал статьи: https://arxiv.org/pdf/2601.05578.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-12 08:42