Призрачное удаление: что на самом деле происходит с данными в нейросетях?

Автор: Денис Аветисян

Новое исследование показывает, что многие методы «забывания» данных нейросетями лишь маскируют проблему, не удаляя информацию из внутренних представлений.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Наблюдается расхождение между средними значениями классов и соответствующими весами классификатора для классов, подвергшихся «забыванию» $\text{(синий)}$ , в то время как для сохраняемых классов $\text{(зеленый и оранжевый)}$ сохраняется значительная согласованность, что указывает на влияние методов «разучивания» на представление знаний.

Оценка эффективности методов машинного «забывания» через анализ внутренних представлений и выравнивание классификаторов.

Несмотря на активную разработку методов машинного разучивания (MU), способных удалять влияние забытых данных, их эффективность часто оказывается иллюзорной. В работе ‘An Illusion of Unlearning? Assessing Machine Unlearning Through Internal Representations’ авторы исследуют внутренние представления моделей после применения MU, выявляя несоответствие между признаками последних слоев и классификатором — явление, которое они называют feature-classifier misalignment. Анализ показывает, что скрытые признаки сохраняют высокую дискриминационную способность, а простое линейное зондирование позволяет восстановить почти исходную точность. Не является ли необходимость оценки MU на уровне представлений, а не только выходных данных, ключом к созданию действительно приватных и надежных систем машинного обучения?

Неизбежность Забвения: Проблема Удаления Данных в Машинном Обучении

Современные модели машинного обучения, демонстрирующие впечатляющую производительность в различных задачах, сталкиваются с существенной проблемой — способностью к “забыванию”. В отличие от людей, которые могут избирательно удалять информацию из памяти, модели машинного обучения, как правило, сохраняют влияние всех данных, на которых они обучались. Удаление влияния конкретных данных без полной переподготовки модели представляет собой сложную задачу, поскольку изменение параметров модели для “забывания” может негативно повлиять на её способность обобщать информацию и выполнять другие задачи. Это особенно актуально в ситуациях, когда необходимо соблюдать конфиденциальность данных или исправлять ошибки в обучающей выборке, что делает разработку эффективных методов “забывания” критически важной областью исследований.

Неспособность современных моделей машинного обучения к эффективному “забыванию” данных представляет серьезную угрозу конфиденциальности. Сохранение влияния удаленной информации может привести к раскрытию личных данных и нарушению приватности пользователей, особенно в контексте чувствительных данных, таких как медицинские записи или финансовые транзакции. Более того, статичность моделей, неспособных адаптироваться к изменениям в данных, ограничивает их применение в динамичных средах. Если информация оказывается неточной или устаревшей, модель продолжает опираться на нее, что приводит к ошибочным прогнозам и снижению эффективности. Необходимость в постоянной переподготовке при изменении данных делает использование моделей в реальном времени затруднительным и дорогостоящим, особенно в сценариях, где требуется оперативное реагирование на новые обстоятельства.

Современные модели машинного обучения, несмотря на свою мощь, часто сталкиваются с проблемой дорогостоящей переподготовки при необходимости удаления устаревшей или конфиденциальной информации. Полная перестройка модели с нуля — вычислительно затратный процесс, особенно в ситуациях, когда данные меняются часто или объемы информации огромны. Это делает традиционную переподготовку непрактичной для многих реальных приложений, таких как персонализированная медицина, финансовые сервисы и онлайн-рекомендации. В связи с этим, возрастает потребность в более эффективных методах «разучивания» — способов удаления влияния конкретных данных без полной перестройки модели, что позволит сохранять актуальность и конфиденциальность информации, а также снизить вычислительные затраты и повысить адаптивность систем машинного обучения.

Оценка эффективности процедур «забывания» в машинном обучении представляет собой сложную задачу, требующую анализа как на уровне выходных данных, так и на уровне признаков. Многие существующие методы демонстрируют почти нулевую точность «забывания» на уровне выходных данных — то есть модель перестает выдавать прежний ответ на удаленные данные — однако не затрагивают лежащие в основе представления признаков. Это означает, что, хотя модель и перестает явно воспроизводить информацию, связанную с удаленными данными, сама информация все еще может неявно присутствовать в ее внутренних представлениях, что создает потенциальные риски для конфиденциальности и препятствует истинной адаптации к новым данным. Таким образом, для полноценной оценки эффективности «забывания» необходимо оценивать не только изменение выходных данных, но и то, как изменились внутренние представления модели после удаления данных.

Обучение с удалением меток демонстрирует быстрое забывание целевого класса (самолет) на CIFAR-10, при этом точность, определяемая линейным зондированием и корреляцией NCC, остается стабильно высокой на протяжении всего процесса.

Согласованность Представлений: Ключ к Эффективному Удалению Данных

Эффективное удаление информации из модели машинного обучения, известное как unlearning, напрямую зависит от степени согласованности (RepresentationAlignment) векторных представлений данных и структуры классов, на которых модель обучалась. Высокая степень согласованности означает, что признаки, извлеченные моделью для различных экземпляров данных, четко отражают их принадлежность к определенным классам. В таком случае, удаление информации, связанной с забытыми данными, становится более точным и эффективным, поскольку позволяет целенаправленно воздействовать на те части модели, которые отвечают за представление этих классов. Напротив, при низкой степени согласованности удаление информации может привести к нежелательным изменениям в представлении других данных и снижению общей производительности модели. Таким образом, RepresentationAlignment является ключевым фактором, определяющим способность модели «забывать» данные без существенного ухудшения ее работы.

Явление NeuralCollapse, характеризующееся выравниванием признаковых представлений и классификаторов в нейронных сетях, создает прочную основу для достижения согласованности признаков, необходимой для эффективного удаления забытой информации. Однако, такое выравнивание также создает потенциальные уязвимости в процессе unlearning. Поскольку признаки и классификаторы становятся тесно взаимосвязанными, удаление информации, связанной с определенными классами, может непреднамеренно повлиять на производительность модели для других классов, требуя более точных и целенаправленных методов unlearning, учитывающих эту взаимосвязь и предотвращающих катастрофическое забывание.

Использование выравнивания признаков, в частности, через методы вроде ClassMeanFeatures, позволяет повысить эффективность удаления забытой информации из модели. ClassMeanFeatures представляет собой векторы средних признаков для каждого класса, что позволяет точно определить и изолировать признаки, наиболее релевантные для конкретного класса. Применяя методы «забывания», ориентированные на эти векторы средних признаков, можно более целенаправленно модифицировать соответствующие части модели, минимизируя влияние на другие классы и обеспечивая более эффективное удаление информации о забытых данных. Такой подход позволяет добиться более точного и эффективного «разобучения» модели по сравнению с методами, воздействующими на модель целиком или использующими менее специфичные критерии для определения релевантных признаков.

Высокая степень согласованности признаков модели с базовой структурой классов позволяет более точно и эффективно удалять информацию, связанную с забытыми данными. В рамках нашей системы, приоритет отдается достижению этой согласованности, что позволяет преодолеть ограничения существующих методов удаления данных. Достигается это за счет целенаправленного воздействия на наиболее релевантные части модели, что снижает вероятность нежелательных побочных эффектов и повышает общую производительность процесса «забывания». Оптимизация согласованности признаков позволяет минимизировать влияние забытых данных на оставшиеся знания модели, сохраняя ее точность и надежность.

Метод обучения с забыванием на основе CMF позволяет добиться отчетливого разделения забытого класса (красные точки) от сохраняемых классов, при этом дополнительная нормализация изменяет общую структуру распределения признаков.

Разнообразие Подходов к Удалению Данных в Машинном Обучении

Существующие методы решения задачи машинного забывания (unlearning) отличаются по своей стратегии и сложности. Простые подходы, такие как RandomLabel и RetainOnlyRetrain, обычно включают в себя повторное обучение модели с измененным набором данных или случайную замену меток удаленных данных. Более сложные методы, такие как SCRUB и UNSIR, используют более тонкие механизмы, включая модификацию градиентов или использование специализированных регуляризаторов, для минимизации влияния удаленных данных на параметры модели и, следовательно, на ее предсказания. Выбор конкретного метода зависит от требований к точности, вычислительным ресурсам и степени необходимого «забывания».

Методы NegGradPlus и SalUn направлены на снижение влияния забытых данных путем непосредственной модификации параметров модели. NegGradPlus корректирует веса модели, используя обратный градиент целевой функции, связанной с забытыми данными, что эффективно нивелирует их вклад в итоговые предсказания. SalUn, в свою очередь, использует концепцию saliency (значимости) для определения наиболее чувствительных параметров, связанных с забытыми данными, и затем корректирует эти параметры для уменьшения их влияния. Оба подхода позволяют добиться удаления следов конкретных данных, минимизируя при этом негативное воздействие на общую производительность модели, однако их эффективность зависит от специфики архитектуры модели и характеристик забываемых данных.

Метод CMFUnlearning отличается от других подходов к удалению данных тем, что он явно использует $ClassMeanFeatures$ — признаки, представляющие средние значения признаков для каждого класса. В процессе удаления данных CMFUnlearning принудительно выравнивает эти признаки, что позволяет значительно снизить погрешность забывания на уровне отдельных признаков (feature-level forget accuracy) по сравнению с базовыми методами. Такой подход направлен на более точное удаление влияния забытых данных из представления признаков модели, обеспечивая более эффективное «забывание» без существенной потери общей производительности.

Несмотря на разнообразие подходов к машинному забыванию (unlearning) — от простых стратегий, таких как RandomLabel и RetainOnlyRetrain, до более сложных, например SCRUB и UNSIR — все они преследуют единую цель: удаление следа конкретных данных без ухудшения общей производительности модели. Однако, проведенные исследования демонстрируют, что для достижения истинного забывания недостаточно простого удаления влияния данных на параметры модели; необходимо целенаправленно воздействовать на представления признаков (feature representations). Это связано с тем, что информация о забытых данных может сохраняться на уровне признаков, влияя на обобщающую способность модели и приводя к неполному удалению следа данных.

Сравнение точности обнаружения забытых классов на уровне выходных данных (синий), уровне признаков с помощью линейного зондирования (красный) и точности до ближайшего центра класса (NCC, серый) для исходной модели, моделей, переобученных с сохранением исходных весов, различных методов MU и моделей с классификатором CMF на CIFAR100 в сценарии забытия одного класса демонстрирует, что методы MU и CMF могут смягчить эффект забывания.

Удаление Данных в Различных Архитектурах: От ResNet до ViT

Принципы и методы машинного «забывания» оказываются универсальными и применимы к широкому спектру архитектур машинного обучения. Исследования демонстрируют, что возможность выборочного удаления данных, усвоенных моделью, не зависит от базовой структуры нейронной сети. Так, стратегии «забывания», разработанные для устоявшихся сверточных сетей, таких как ResNet, успешно адаптируются и для более современных трансформерных моделей, например, ViT. Это свидетельствует о фундаментальной применимости концепции машинного «забывания» вне зависимости от конкретной реализации архитектуры, открывая перспективы для разработки единых, гибких решений в области конфиденциальности данных и адаптации моделей к изменяющимся условиям.

Несмотря на различия в реализации, обусловленные особенностями архитектур нейронных сетей — от сверточных сетей ResNet до трансформеров ViT — фундаментальная задача машинного «забывания» остается неизменной. Суть заключается в избиранном удалении влияния определенных данных из модели, не затрагивая при этом ее общую производительность и способность к обобщению. Различные алгоритмы «забывания» адаптируют свои методы к конкретным особенностям каждой архитектуры, будь то модификация весов, изменение активаций или применение специализированных техник регуляризации. Однако, независимо от выбранного подхода, цель всегда одна — обеспечить возможность целенаправленного удаления информации, сохраняя при этом полезные знания, накопленные моделью в процессе обучения.

Возможность эффективного «забывания» информации машиной играет ключевую роль в развертывании моделей машинного обучения в средах, где конфиденциальность данных имеет первостепенное значение. В динамично меняющихся условиях, когда данные устаревают или требуют удаления по юридическим причинам, способность избирательно удалять влияние определенных данных без переобучения всей модели становится необходимостью. Это особенно актуально для приложений, связанных с персональными данными, финансовой информацией или медицинскими записями, где соблюдение нормативных требований и защита частной жизни пользователей являются приоритетными задачами. Эффективное «забывание» позволяет моделям адаптироваться к новым обстоятельствам, соблюдать правовые нормы и поддерживать доверие пользователей, что является критически важным для долгосрочного успеха и широкого внедрения технологий машинного обучения.

Несмотря на то, что оптимизация методов машинного «забывания» для различных архитектур и типов данных требует дальнейших исследований, существующие решения демонстрируют обнадеживающие результаты. Разработанный подход позволяет достичь сниженной точности «забывания» на уровне признаков, что свидетельствует об эффективном удалении целевой информации, при этом сохраняя высокую точность определения ближайшего центра класса (Nearest Class Center — NCC). Это означает, что модель способна эффективно избавляться от ненужных данных, не жертвуя при этом способностью к точной классификации, что критически важно для применения в динамических средах и приложениях, требующих соблюдения конфиденциальности данных.

Анализ выравнивания признаков и классификатора (<span class="katex-eq" data-katex-display="false">\mathcal{NC}</span>3) на CIFAR-10 показывает, что при забывании класса увеличивается расстояние между средними значениями признаков и весами классификатора, в то время как для сохраняемого класса это расстояние остается неизменным. — Анализ выравнивания признаков и классификатора ( $\mathcal{NC}$ 3) на CIFAR-10 показывает, что при забывании класса увеличивается расстояние между средними значениями признаков и весами классификатора, в то время как для сохраняемого класса это расстояние остается неизменным.

За пределами Точности: Оценка Истинного Удаления Данных

Несмотря на важность оценок на уровне выходных данных, таких как точность, подлинная оценка способности модели к «забыванию» требует анализа её внутренних представлений с использованием метрик на уровне признаков, например, LinearProbe. Этот подход позволяет исследователям определить, действительно ли модель избавилась от целевых данных, а не просто запомнила обходной путь для поддержания прежней производительности. Анализ внутренних представлений позволяет оценить, насколько изменились признаки, используемые моделью для принятия решений, после процесса «забывания», и выявить, сохранились ли следы удалённой информации. В отличие от традиционных метрик, которые фокусируются исключительно на результатах, FeatureLevelMetrics предоставляют более глубокое понимание того, как модель обрабатывает информацию и насколько эффективно она адаптируется к новым требованиям.

Исследование внутренних представлений модели, а не только её выходных данных, позволяет оценить, действительно ли она «забыла» целевые данные, или же просто научилась обходить их, запомнив некий «обходной путь». Традиционные метрики, такие как точность, могут быть обманчивы, поскольку модель способна сохранить информацию о данных в скрытых слоях, продолжая использовать её косвенно. Методы, анализирующие изменения в активациях нейронов или в весах связей (например, с помощью LinearProbe), предоставляют возможность определить, была ли информация о целевых данных действительно удалена из внутренних представлений модели, или же она просто замаскирована. Такой подход позволяет более глубоко понять процесс «забывания» и разработать более эффективные стратегии для защиты конфиденциальности данных и обеспечения адаптивности моделей.

Перспективные исследования в области «забывания» моделей машинного обучения требуют разработки более сложных метрик оценки, способных улавливать тонкости этого процесса и обеспечивать всесторонний анализ поведения модели. Существующие методы часто ограничиваются оценкой производительности на сохраненных данных, упуская из виду, действительно ли модель «забыла» целевую информацию, или же просто научилась обходить её. Новые метрики должны учитывать изменения во внутренних представлениях модели, а не только её выходные данные, позволяя более точно оценить, насколько эффективно она адаптируется к новым условиям и соблюдает принципы конфиденциальности. Это предполагает переход от простых показателей точности к более глубокому анализу структуры знаний модели и её способности к генерализации.

Эффективное удаление данных из модели машинного обучения — это не просто поддержание высокой точности на оставшихся данных, но и гарантия уважения к приватности пользователей и способности модели адаптироваться к меняющимся условиям. Исследования показали значительное расхождение между классификаторами и внутренними представлениями данных после применения существующих методов “забывания”. Это указывает на то, что текущие подходы в основном направлены на подавление выходных данных, а не на истинное удаление информации из внутренних слоев модели. Таким образом, модель может продолжать хранить следы удаленных данных, что потенциально создает риски для конфиденциальности и ограничивает её способность к обобщению в новых ситуациях.

Визуализация t-SNE для CIFAR-10 демонстрирует, что в моделях с отученными классами (темно-синие точки) забытый класс сохраняет линейную отделимость, в отличие от оригинальной модели.

Исследование демонстрирует, что кажущийся успех методов машинного разучения в удалении данных на уровне выходных показателей часто оказывается иллюзией. Многие системы, несмотря на видимое соответствие требованиям приватности, продолжают хранить информацию в своих внутренних представлениях. Это подтверждает важность анализа не только внешнего поведения модели, но и ее внутренней архитектуры. Как говорил Алан Тьюринг: «Иногда люди, которые кажутся сумасшедшими, просто видят вещи, которые другие не видят». Данная работа подчеркивает необходимость более глубокого понимания того, как информация кодируется и хранится в нейронных сетях, и предлагает framework, ориентированный на удаление данных на уровне представлений, что способствует созданию действительно «забывающих» систем. Архитектура без истории, как показывает исследование, действительно хрупка и скоротечна.

Что дальше?

Представленная работа, словно рентгеновский снимок, обнажает иллюзию «забывания» в машинном обучении. Метрики на уровне выходных данных могут свидетельствовать об успехе, однако, как показывает анализ, внутренние представления системы часто сохраняют следы прошлого опыта. Это напоминает о том, что время для системы — не стиральная машина, а среда, в которой информация не исчезает, а трансформируется, оседая в слоях её архитектуры.

Разработанный подход к «забыванию» на уровне кластерных средних признаков — это, безусловно, шаг вперед, но лишь один из возможных. Логирование, как хроника жизни системы, позволяет отследить эволюцию этих представлений, но не всегда дает ключ к их полному удалению. Вопрос заключается не только в стирании данных, но и в понимании того, как эти данные влияют на текущее поведение системы, как формируют её «память».

Будущие исследования, вероятно, сосредоточатся на разработке методов, способных не просто «удалять» информацию, но и активно реструктурировать внутренние представления, создавая системы, которые действительно способны к адаптации и «забыванию» без потери эффективности. Развертывание — это лишь мгновение на оси времени, а истинное испытание для системы — это способность достойно стареть, избавляясь от устаревшего, не теряя при этом своей сущности.

Оригинал статьи: https://arxiv.org/pdf/2604.08271.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-12 08:08