Уязвимости машинного забвения: как украсть забытые данные?

Автор: Денис Аветисян

Новое исследование выявляет серьезные недостатки в современных методах машинного забвения, позволяя злоумышленникам восстанавливать конфиденциальные данные, даже после их удаления из модели.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Атака восстановления модели позволяет вывести метки данных, используя инверсию модели, демонстрируя возможность компрометации конфиденциальности информации, лежащей в основе алгоритма.

Атакующие могут извлекать информацию о забытых метках, анализируя параметры модели или осуществляя инверсию ее предсказаний, используя индекс Юдена.

Несмотря на растущий интерес к технологиям машинного обучения и праву на забвение, существующие методы удаления данных могут непреднамеренно раскрывать информацию об удаленных образцах. В работе «Label Leakage Attacks in Machine Unlearning: A Parameter and Inversion-Based Approach» исследуется уязвимость алгоритмов машинного разучения к атакам, направленным на выявление классов удаленных данных. Предложены четыре метода атаки, основанные на анализе параметров модели и инверсии модели, позволяющие злоумышленнику с различным уровнем знаний восстановить информацию об удаленных метках. Смогут ли предложенные атаки стать основой для разработки более надежных и приватных алгоритмов машинного обучения, способных гарантировать полное удаление данных?

Разоблачение приватности: Необходимость в «забывании» данных

Современные модели машинного обучения всё активнее внедряются в сферы, связанные с обработкой конфиденциальных данных — от персонализированной медицины и финансовых услуг до систем распознавания лиц и поведенческого анализа. Это повсеместное распространение, хотя и открывает новые возможности, одновременно вызывает серьёзные опасения относительно сохранения приватности пользователей. Данные, используемые для обучения этих моделей, часто содержат личную информацию, и даже после удаления или изменения этих данных, следы их влияния могут сохраняться в параметрах модели, создавая риски несанкционированного доступа или использования. Таким образом, возрастает потребность в разработке и внедрении механизмов, гарантирующих эффективное удаление влияния конкретных данных из обученной модели, не снижая при этом её общей производительности и точности.

Традиционное переобучение моделей машинного обучения, включающее полный цикл обучения на обновленном наборе данных, становится непомерно затратным с ростом объемов информации и усложнением алгоритмов. При непрерывном поступлении новых данных или необходимости соблюдения требований законодательства о “праве на забвение”, когда конкретная информация должна быть полностью исключена из модели, полное переобучение оказывается не только ресурсоемким, но и практически нереализуемым в режиме реального времени. Представьте себе необходимость переобучать сложную нейронную сеть каждый раз, когда пользователь запрашивает удаление своих данных — подобная операция требует значительных вычислительных мощностей, времени и энергии, делая ее непригодной для динамичных систем и приложений, требующих немедленной реакции на запросы пользователей или изменения в нормативных актах. Поэтому возникает острая необходимость в альтернативных подходах, позволяющих выборочно удалять влияние отдельных данных на модель без повторного обучения всего алгоритма.

В связи с растущим объемом данных, используемых в современных моделях машинного обучения, и их применением в чувствительных областях, возникает острая необходимость в эффективных методах “разучивания” — способности выборочно удалять влияние отдельных данных из модели. Традиционные подходы, такие как полная переподготовка, становятся непомерно затратными по вычислительным ресурсам и времени, особенно при необходимости постоянного обновления данных или соблюдения требований законодательства о “праве на забвение”. Поэтому разработка алгоритмов, позволяющих целенаправленно и быстро “стирать” влияние конкретных записей, не затрагивая при этом общую производительность модели, представляется ключевой задачей для обеспечения конфиденциальности и соответствия нормативным требованиям в эпоху больших данных. Эти методы должны обеспечивать не только удаление влияния, но и гарантировать, что удаленная информация не может быть восстановлена с помощью различных атак, направленных на извлечение конфиденциальных данных из обученной модели.

Существующие методы «разучивания» моделей машинного обучения зачастую приводят к снижению их производительности или оказываются уязвимыми к атакам, направленным на восстановление конфиденциальных данных. Исследования показывают, что с использованием методов инверсии данных, злоумышленникам удается восстановить информацию из модели с вероятностью, превышающей 70%. Эта тревожная статистика подчеркивает острую необходимость в разработке принципиально новых подходов к «разучиванию», которые бы не только эффективно удаляли влияние отдельных данных, но и гарантировали сохранность конфиденциальности и стабильную работу модели в условиях постоянно меняющихся требований к защите данных.

Эксперименты на датасете SVHN показали, что метод повторного обучения для забывания данных эффективно удаляет информацию о заданном количестве классов, сохраняя при этом общую производительность модели.

В поисках решения: Методы «разучивания» и их компромиссы

Тонкая настройка и переобучение модели представляют собой наиболее понятные, но ресурсоемкие методы удаления информации. В то время как переобучение требует повторной обработки значительных объемов данных и существенных вычислительных мощностей, тонкая настройка, хотя и менее затратна, все равно требует значительного времени и ресурсов. Альтернативные подходы, такие как случайная маркировка данных, стремятся нарушить существующие связи в модели, удаляя информацию путем присвоения случайных меток данным, что приводит к снижению точности и обобщающей способности модели. Данный подход позволяет снизить вычислительные затраты, но компрометирует производительность модели, поскольку случайные метки искажают первоначальное обучение.

Метод амнезиачного удаления (Amnesiac unlearning) предполагает непосредственное вычитание вклада отдельных обучающих данных из весов модели. В отличие от переобучения или штрафных методов, этот подход стремится целенаправленно “забыть” информацию, связанную с конкретными записями. Однако, эффективная реализация требует тщательного управления параметрами, включая скорость вычитания и регуляризацию, для предотвращения дестабилизации модели и сохранения её общей производительности. Недостаточная точность вычислений вклада данных или некорректный выбор параметров может привести к неполному удалению информации или, наоборот, к чрезмерной коррекции, негативно влияющей на точность модели на оставшихся данных.

Метод негативного градиентного спуска (Negative Gradient Descent) предполагает непосредственное уменьшение влияния конкретных данных на параметры модели, что достигается путем корректировки весов в направлении, противоположном градиенту потерь, вызванных этими данными. Однако, применение данного метода без должной регуляризации и ограничений может привести к катастрофическому забыванию (catastrophic forgetting) — резкому ухудшению производительности модели на ранее усвоенных данных. Это связано с тем, что удаление влияния отдельных данных может исказить общую структуру модели и нарушить ее способность к обобщению, особенно если удаляемые данные были критически важны для формирования определенных признаков или связей.

Различные методы «забывания» данных в моделях машинного обучения демонстрируют компромиссы между вычислительной эффективностью, сохранением точности и обеспечением конфиденциальности. Несмотря на различия в подходах — от тонкой настройки и переобучения до методов, направленных на целенаправленное удаление вклада конкретных данных — все они остаются уязвимыми к атакам, использующим методы инверсии данных. Такие атаки позволяют восстановить конфиденциальную информацию с высокой вероятностью, достигающей более 70% успеха (Attack Success Rate — ASR), что ставит под сомнение их надежность в контексте защиты персональных данных и интеллектуальной собственности.

Результаты показывают, что модель демонстрирует сравнимую эффективность удаления знаний в сценариях удаления одного класса и нескольких классов.

Выявление «забытых» классов: Критически важная задача

Для выявления “забытых” классов в задачах машинного обучения используются различные критерии, основанные на анализе выходных вероятностей модели и измерении энтропии. Подход, основанный на пороговых сравнениях вероятностей предсказания, предполагает установку порога, при превышении которого класс считается “забытым” из-за низкой уверенности модели в его предсказании. Измерение энтропии позволяет оценить неопределенность модели в отношении распределения классов; высокая энтропия для определенного экземпляра данных может указывать на то, что модель не уверена в его классификации и, следовательно, этот экземпляр может принадлежать к «забытому» классу. Комбинация этих методов позволяет более точно идентифицировать данные, которые модель перестала корректно обрабатывать.

Разница в значениях параметров модели и сходство, определяемое как скалярное произведение (dot product) между этими параметрами, могут служить индикаторами влияния конкретных точек данных. Анализ изменений в весах нейронной сети после обучения на определенной точке данных позволяет оценить степень её воздействия на модель. Высокая разница в значениях параметров или высокое сходство между параметрами, полученными до и после воздействия точки данных, свидетельствует о значительном влиянии этой точки. Данный подход позволяет выявлять точки данных, оказывающие наибольшее влияние на принятие решений моделью, что важно для задач, связанных с объяснимостью модели и безопасностью машинного обучения.

Индекс Юдена (Youden’s J statistic) представляет собой статистическую метрику, используемую для оценки эффективности методов идентификации «забытых» классов данных. Он рассчитывается как $J = Sensitivity + Specificity - 1$ , где Sensitivity (чувствительность) измеряет долю правильно идентифицированных экземпляров целевого класса, а Specificity (специфичность) — долю правильно идентифицированных экземпляров нецелевого класса. В контексте идентификации данных, влияющих на модель, индекс Юдена позволяет оценить, насколько хорошо метод различает данные, которые необходимо удалить (влияющие на «забытый» класс), и данные, которые следует оставить, обеспечивая тем самым баланс между точностью идентификации и минимизацией ложных срабатываний. Высокое значение индекса Юдена указывает на более эффективный метод идентификации, способный точно выделять целевые данные для последующего удаления.

Точная идентификация забытых классов имеет критическое значение для обеспечения эффективности методов удаления данных, гарантируя, что влияние конкретных данных будет удалено без ущерба для общей производительности модели. Однако, даже при точной идентификации, атаки, основанные на анализе параметров модели, могут достигать показателей успешности (Attack Success Rate, ASR) более 90% в определенных сценариях. Это указывает на уязвимость моделей даже после применения процедур удаления данных, подчеркивая необходимость разработки дополнительных мер защиты от атак, нацеленных на параметры модели.

Атака на основе индекса Юдена и скалярного произведения полносвязного слоя позволяет выявить уязвимости в системе, используя пороговое значение индекса Юдена для определения наиболее значимых признаков и их влияния на результат работы полносвязного слоя.

Оценка эффективности на стандартных наборах данных

Для всесторонней оценки эффективности методов «забывания» и техник идентификации «забытых» классов, исследования проводились на общепризнанных эталонных наборах данных. В качестве тестовых площадок были выбраны MNIST, содержащий изображения рукописных цифр, FashionMNIST, представляющий собой коллекцию изображений одежды, CIFAR10, включающий цветные изображения различных объектов, и SVHN, состоящий из изображений цифр, извлеченных из уличных знаков. Использование этих разнообразных наборов данных позволило оценить устойчивость и обобщающую способность разработанных методов в различных условиях и с разными типами изображений, что является важным шагом для обеспечения надежности систем машинного обучения в реальных приложениях.

Оценка производительности методов забывания данных осуществлялась с использованием двух архитектур нейронных сетей — LeNet и ResNet18. Выбор данных архитектур позволил провести сопоставление эффективности различных подходов к удалению информации в моделях различной сложности. LeNet, как относительно простая сеть, послужила базовым уровнем для сравнения, в то время как ResNet18, с более глубокой структурой и большим количеством параметров, представляла собой более сложную задачу. Такое сопоставление позволило выявить, как сложность модели влияет на устойчивость к атакам, направленным на восстановление забытых данных, и оценить, насколько эффективно разработанные методы справляются с этой проблемой в различных условиях.

В качестве основной метрики оценки использовался коэффициент успешности атак, позволяющий измерить способность к реконструкции или выводу информации о забытых данных. Полученные результаты демонстрируют, что атаки, основанные на анализе параметров модели, достигают коэффициента успешности (Attack Success Rate — ASR) более 90% в определенных сценариях. Это указывает на существенную уязвимость моделей машинного обучения к извлечению конфиденциальной информации даже после применения методов «забывания», что подчеркивает необходимость разработки более надежных стратегий защиты данных и сохранения конфиденциальности.

Исследования показали, что даже при использовании наиболее совершенных методов защиты, атаки инверсии данных демонстрируют стабильно высокий уровень успеха — от 70 до 90% — на различных наборах данных, включая MNIST, FashionMNIST, CIFAR10 и SVHN. Это означает, что злоумышленники способны с высокой вероятностью восстановить или вывести информацию о забытых данных, несмотря на применение алгоритмов «забывания». Полученные результаты подчеркивают уязвимость современных моделей машинного обучения к атакам, направленным на извлечение конфиденциальной информации, и указывают на необходимость разработки более надежных методов защиты данных, даже после их удаления из обучающей выборки.

Переобученная модель демонстрирует распределение результатов скалярного произведения на наборе данных Fashion-MNIST.

Исследование, представленное в статье, демонстрирует, что современные методы машинного разучения, призванные «забывать» данные, на самом деле оставляют следы, доступные для анализа. Подобно тому, как опытный инженер может понять устройство машины по её внешним признакам, злоумышленник способен восстановить забытые метки данных, изучая параметры модели или инвертируя её предсказания. Андрей Колмогоров однажды заметил: «Математика — это искусство открывать закономерности, скрытые в хаосе». В данном контексте, статья показывает, что кажущийся хаос изменений в параметрах модели содержит в себе скрытые закономерности, позволяющие раскрыть конфиденциальную информацию, даже после применения методов «разучения». Уязвимость, обнаруженная исследователями, подчёркивает необходимость разработки более надежных и устойчивых к атакам алгоритмов, способных действительно защитить приватность данных.

Куда двигаться дальше?

Представленная работа обнажает закономерность, знакомую любому, кто имел дело с системами: попытки «забыть» информацию не уничтожают её следы, а лишь перемещают в иные, порой неожиданные, уголки модели. Усилия по стиранию данных оказываются не ликвидацией, а скорее реорганизацией шума, который, будучи тщательно проанализирован, может выдать скрытую структуру. Этот факт заставляет переосмыслить само понятие «забвения» в контексте машинного обучения — возможно, полная амнезия принципиально недостижима, и необходимо искать способы управления утечками, а не их полного предотвращения.

Очевидным направлением дальнейших исследований представляется разработка методов, устойчивых к атакам, основанным на анализе параметров и инверсии моделей. Однако, более фундаментальный вопрос заключается в определении границ допустимой утечки. Какой уровень «забытия» можно считать приемлемым, учитывая неизбежный компромисс между конфиденциальностью и полезностью модели? И, что более важно, как измерить этот компромисс объективно, не полагаясь на субъективные оценки?

Наконец, представляется перспективным изучение возможности использования принципов, лежащих в основе атак, для создания более надежных механизмов защиты. По аналогии с криптографией, понимание уязвимостей позволяет разрабатывать контрмеры. В конечном итоге, игра «кошки-мышки» между атакующими и защитниками — это не столько борьба за превосходство, сколько процесс непрерывного совершенствования системы, раскрывающий её внутреннюю архитектуру.

Оригинал статьи: https://arxiv.org/pdf/2604.07386.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-12 06:19