Искусственный интеллект против мошенничества: новый подход к защите данных

Автор: Денис Аветисян


В статье представлен инновационный метод генерации синтетических данных, обеспечивающий как высокую точность выявления мошеннических операций, так и защиту конфиденциальной информации.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Дистилляция данных на основе деревьев позволяет эффективно передавать знания от сложных моделей к более компактным, сохраняя при этом ключевую информацию и снижая вычислительные затраты.
Дистилляция данных на основе деревьев позволяет эффективно передавать знания от сложных моделей к более компактным, сохраняя при этом ключевую информацию и снижая вычислительные затраты.

Предлагаемый метод иерархической дистилляции многоисточниковых данных на основе деревьев решений позволяет создавать интерпретируемые синтетические наборы данных для совместного обнаружения мошенничества с соблюдением требований регуляторов.

Обмен данными между финансовыми учреждениями для обнаружения мошеннических операций затруднен из-за проблем конфиденциальности и нормативных ограничений. В данной работе, ‘Secure and Explainable Fraud Detection in Finance via Hierarchical Multi-source Dataset Distillation’, предложен новый подход к дистилляции данных, основанный на генерации синтетических транзакций из иерархических гиперпрямоугольников, полученных из случайного леса. Это позволяет создать компактный и интерпретируемый суррогатный набор данных, сохраняющий ключевые закономерности, но при этом снижающий риск раскрытия конфиденциальной информации. Способны ли такие методы обеспечить баланс между производительностью, объяснимостью и соответствием регуляторным требованиям в условиях все более сложной финансовой среды?


Вызов времени: Баланс между обнаружением мошенничества и конфиденциальностью данных

Эффективное выявление мошеннических операций является важнейшей задачей для финансовых институтов и онлайн-сервисов, однако достижение этой цели сталкивается с растущими трудностями, связанными с обеспечением конфиденциальности и безопасности данных. По мере увеличения объемов собираемой информации и усложнения схем мошенничества, возникает необходимость в обработке всё большего количества персональных данных, что создает значительные риски для их несанкционированного доступа или утечки. Повышенное внимание к защите частной жизни пользователей и ужесточение нормативных требований, таких как GDPR, вынуждают компании искать баланс между необходимостью анализа данных для выявления мошенничества и соблюдением прав на конфиденциальность, что делает традиционные методы обнаружения аномалий все менее эффективными и требующими инновационных подходов.

Традиционные методы машинного обучения в обнаружении мошеннических операций зачастую требуют непосредственного доступа к конфиденциальным данным о транзакциях, что создает значительные риски для безопасности и приватности пользователей. Для построения эффективных моделей классификации необходимо анализировать детали операций, включая информацию о суммах, датах, географическом положении и данных держателей карт. Непосредственный доступ к этим данным повышает вероятность утечек, взломов и несанкционированного использования личной информации. Кроме того, хранение и обработка больших объемов чувствительных данных подвергают организацию, осуществляющую обнаружение мошенничества, серьезным регуляторным и юридическим последствиям, включая штрафы и потерю репутации. Поэтому возникает необходимость в разработке альтернативных подходов, позволяющих обнаруживать мошенничество, минимизируя при этом зависимость от прямого доступа к конфиденциальным данным.

Непрозрачность многих моделей машинного обучения, используемых для выявления мошеннических операций, представляет собой серьезную проблему. Часто бывает сложно или невозможно понять, на основании каких конкретно признаков и логических цепочек транзакция была помечена как подозрительная. Эта «чёрный ящик» затрудняет не только проверку обоснованности решения, но и выявление потенциальных ошибок или предвзятостей в алгоритме. Отсутствие прозрачности подрывает доверие к системе, усложняет процесс оспаривания ошибочных блокировок и препятствует эффективному совершенствованию моделей, поскольку аналитики лишены возможности детально изучить процесс принятия решений.

Дистилляция данных: Путь к конфиденциальности и искусственному интеллекту

Дистилляция наборов данных представляет собой эффективный подход к созданию синтетических, уменьшенных объемом наборов данных, которые сохраняют ключевые характеристики исходных данных. Вместо обучения моделей непосредственно на конфиденциальной информации, дистилляция позволяет генерировать искусственные данные, отражающие статистическое распределение и взаимосвязи оригинального набора. Это достигается путем применения алгоритмов, позволяющих выделить наиболее значимые признаки и воссоздать их в новом, более компактном формате, минимизируя при этом риск раскрытия персональных данных или другой чувствительной информации, содержащейся в исходном наборе данных.

Использование синтетических данных для обучения моделей позволяет существенно снизить риски, связанные с прямым доступом к конфиденциальной информации. Вместо использования исходного набора данных, который может содержать персональные данные или другую чувствительную информацию, модели обучаются на искусственно сгенерированных данных, сохраняющих статистические характеристики исходного набора. Этот подход исключает возможность утечки конфиденциальной информации, поскольку модель не имеет доступа к реальным данным, а работает исключительно с синтетическими образцами. Данный метод особенно актуален в сферах, где конфиденциальность данных является приоритетной, таких как здравоохранение и финансы.

Наш подход к дистилляции наборов данных позволяет снизить их объем на 85-93% без существенной потери в производительности моделей. Эффективность дистилляции достигается за счет использования алгоритмов, таких как Random Forest Classifier, которые позволяют точно воспроизвести распределение исходных данных в синтетическом наборе. Это достигается путем выбора подмножества данных, наиболее репрезентативного для исходного распределения, что позволяет обучать модели на значительно меньшем объеме данных, сохраняя при этом высокую точность прогнозирования.

Зависимость площади под ROC-кривой (AUC) на тестовых данных от доли дистилляции обучающих данных демонстрирует, что увеличение доли дистилляции приводит к улучшению обобщающей способности модели.
Зависимость площади под ROC-кривой (AUC) на тестовых данных от доли дистилляции обучающих данных демонстрирует, что увеличение доли дистилляции приводит к улучшению обобщающей способности модели.

Древовидные гиперпрямоугольники и правила для интерпретируемого синтеза

В основе нашего подхода лежит использование гиперпрямоугольников, организованных в древовидную структуру, для определения интерпретируемых областей в пространстве данных. Каждый гиперпрямоугольник представляет собой многомерный интервал, а древовидная организация позволяет эффективно разбивать пространство данных на непересекающиеся регионы. Эта структура обеспечивает возможность локального анализа данных и выявления специфических закономерностей в каждой области, что упрощает понимание логики работы модели и позволяет проводить более детальную интерпретацию принятых решений. Использование древовидной структуры также способствует масштабируемости и эффективности вычислений при работе с высокоразмерными данными.

Области, определяемые как конъюнкции простых предикатов (правила или rule regions), позволяют анализировать границы принятия решений, формируемые моделью. Каждый предикат представляет собой простое логическое условие, применимое к входным данным, и их комбинация формирует сложные правила, определяющие конкретные области в пространстве признаков. Анализ этих правил позволяет понять, какие комбинации признаков приводят к определенным предсказаниям модели, обеспечивая возможность интерпретации ее поведения и выявления ключевых факторов, влияющих на результат. Таким образом, визуализация и анализ rule regions предоставляет инструмент для понимания логики модели и верификации ее соответствия ожидаемым принципам.

Для обеспечения как полезности данных, так и интерпретируемости модели, мы генерируем синтетические данные внутри определенных «правильных областей». Высокая степень соответствия между синтетическими и реальными данными подтверждается результатом измерения косинусного сходства ближайших соседей — 93%. Данный показатель свидетельствует о высокой точности и надежности генерируемых данных, что позволяет использовать их для анализа и объяснения логики работы модели, снижая проблему «черного ящика» в системах искусственного интеллекта.

Визуализация t-SNE демонстрирует, что синтезированные данные (точки) успешно воспроизводят структуру трех кластеров, наблюдаемых в реальных данных (заливка).
Визуализация t-SNE демонстрирует, что синтезированные данные (точки) успешно воспроизводят структуру трех кластеров, наблюдаемых в реальных данных (заливка).

Федеративное обучение и масштабируемое сохранение конфиденциальности при обнаружении мошенничества

Сочетание дистилляции наборов данных с федеративным обучением позволяет проводить совместное обнаружение мошеннических операций, не требуя от учреждений обмена исходными данными о транзакциях. Вместо этого, каждое учреждение создает синтетический, дистиллированный набор данных, сохраняющий ключевую информацию о мошеннических паттернах, но лишенный конфиденциальных деталей, идентифицирующих конкретных пользователей или транзакции. Эти дистиллированные наборы данных затем используются для обучения глобальной модели, распределенной между всеми участниками, без передачи реальных данных. Такой подход обеспечивает не только повышенную конфиденциальность, но и позволяет использовать преимущества разнообразных наборов данных, что способствует повышению обобщающей способности модели и улучшению ее эффективности в выявлении новых и сложных схем мошенничества.

Для обеспечения децентрализованного обучения моделей обнаружения мошеннических операций, применялся алгоритм KK-Means кластеризации к набору данных IEEE-CIS Fraud Detection. Данный подход позволил разбить исходный набор данных на несколько непересекающихся кластеров, каждый из которых был распределен между различными учреждениями. Использование KK-Means обеспечило равномерное распределение как нормальных, так и мошеннических транзакций по этим кластерам, что позволило каждой организации обучать модель на репрезентативной выборке данных, не раскрывая при этом конфиденциальную информацию о своих собственных транзакциях. В результате, модель обучается коллективно, используя распределенные данные, сохраняя при этом конфиденциальность и повышая общую производительность и обобщающую способность.

Предложенный подход к обнаружению мошеннических операций, основанный на федеративном обучении и дистилляции данных, не только значительно повышает конфиденциальность данных, но и способствует улучшению обобщающей способности модели. Использование разнообразных наборов данных, распределенных между различными учреждениями, позволяет обучать модель, устойчивую к различным типам мошенничества и лучше адаптированную к новым, ранее не встречавшимся сценариям. Особого внимания заслуживает высокий уровень защиты от атак, направленных на выявление участия конкретных данных в процессе обучения — в ходе тестирования с использованием реальных данных, метод продемонстрировал показатель AUC атаки на вывод членства в размере 0.502, что соответствует случайному угадыванию и подтверждает надежность применяемых механизмов сохранения конфиденциальности.

Кластеризация данных с использованием k-средних позволила выделить три отчетливо выраженные группы.
Кластеризация данных с использованием k-средних позволила выделить три отчетливо выраженные группы.

Расширение инструментария: Сопоставление градиентов и диффузионные модели

Для дальнейшего улучшения качества генерируемых синтетических данных применяются методы сопоставления градиентов, позволяющие выровнять градиенты моделей, обученных на реальных и синтетических наборах данных. Этот подход основывается на идее, что модель, обученная на синтетических данных, должна демонстрировать схожее поведение с моделью, обученной на реальных данных, что достигается путем минимизации расхождений в градиентах. Сопоставление градиентов способствует более точному воспроизведению статистических свойств исходных данных в синтетическом наборе, что, в свою очередь, повышает эффективность и надежность моделей, обученных на этих данных. Такая калибровка позволяет создавать синтетические данные, которые не только сохраняют конфиденциальность, но и обеспечивают высокую точность и обобщающую способность.

Исследование передовых генеративных моделей, в частности, диффузионных моделей, открывает значительные перспективы для создания синтетических наборов данных, отличающихся повышенной реалистичностью и репрезентативностью. В отличие от традиционных методов, диффузионные модели работают, постепенно добавляя шум к данным, а затем обучаясь обращать этот процесс, что позволяет генерировать образцы, удивительно похожие на реальные. Этот подход демонстрирует потенциал в преодолении ограничений, присущих более ранним методам синтеза данных, обеспечивая более точное представление сложных закономерностей и нюансов, встречающихся в исходных данных. Возможность генерировать высококачественные синтетические данные имеет решающее значение для обучения надежных моделей искусственного интеллекта, особенно в ситуациях, когда доступ к реальным данным ограничен из-за проблем конфиденциальности или нехватки ресурсов.

Совершенствование методов генерации синтетических данных открывает возможности для создания надежных и ориентированных на конфиденциальность систем искусственного интеллекта, способных решать сложные задачи, в том числе в области обнаружения мошеннических операций. Проведенная оценка приватности показала, что риск запоминания конфиденциальной информации в синтетических данных минимален: значение AUC для Membership Inference Attack составило всего 0.875. Это свидетельствует о том, что разработанные подходы эффективно защищают данные, используемые для обучения моделей, и позволяют создавать системы, соответствующие строгим требованиям по защите персональной информации, не жертвуя при этом точностью и производительностью.

Близость между реальными кластерами и синтезированными данными, измеренная косинусным сходством ближайших соседей, демонстрирует высокую корреляцию.
Близость между реальными кластерами и синтезированными данными, измеренная косинусным сходством ближайших соседей, демонстрирует высокую корреляцию.

Исследование демонстрирует, что создание синтетических данных с помощью иерархической дистилляции на основе древовидных гиперпрямоугольников позволяет достичь баланса между производительностью моделей обнаружения мошенничества и необходимостью сохранения приватности. Этот подход, по сути, создает «летопись» данных, где каждая версия синтетического набора отражает эволюцию понимания паттернов мошенничества. Как однажды заметил Джон фон Нейманн: «В науке нет ничего абсолютно надежного, если только оно не было проверено». Данная работа подтверждает эту мысль, предлагая метод, который не только повышает эффективность обнаружения, но и обеспечивает возможность интерпретации и контроля над процессом генерации данных, что критически важно для соответствия регуляторным требованиям и поддержания доверия в финансовых операциях.

Что Дальше?

Предложенный подход к дистилляции данных, безусловно, представляет собой шаг к созданию более устойчивых систем обнаружения мошенничества. Однако, каждая архитектура проживает свою жизнь, и становится очевидным, что баланс между объяснимостью, конфиденциальностью и производительностью — это не статичная точка, а скорее постоянно меняющееся поле сил. По мере усложнения моделей и появления новых векторов атак, синтетические данные, какими бы продуманными они ни были, неизбежно устаревают.

Вопрос не в том, чтобы создать идеальный набор синтетических данных, а в том, чтобы разработать системы, способные адаптироваться к изменяющимся условиям. Улучшения стареют быстрее, чем мы успеваем их понять. Будущие исследования, вероятно, будут сосредоточены на динамической дистилляции, когда синтетические данные генерируются и обновляются в режиме реального времени, отражая текущие паттерны мошенничества и уязвимости моделей.

Все системы стареют — вопрос лишь в том, делают ли они это достойно. И в конечном итоге, ценность не в совершенстве алгоритмов, а в способности признать их неизбежное увядание и построить системы, способные к самовосстановлению и эволюции. Время — не метрика, а среда, в которой существуют системы, и именно эту среду необходимо учитывать при разработке долгосрочных решений.


Оригинал статьи: https://arxiv.org/pdf/2512.21866.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-29 21:42