Скрытые таланты нейросетей: обнаружение аномалий без обучения

Автор: Денис Аветисян

Новое исследование показывает, как извлечь способность к обнаружению аномалий из предварительно обученных моделей, объединяющих зрение и язык.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

В отличие от существующих подходов, полагающихся на внешнее, непрозрачное моделирование, разработанный метод выявляет аномалии, изолируя и активируя редкие чувствительные нейроны внутри зафиксированной сети.

Предложен фреймворк LAKE, выявляющий и активирующий редкие, чувствительные к аномалиям нейроны в моделях, обеспечивая передовую производительность без дополнительного обучения.

Несмотря на впечатляющие возможности современных мультимодальных моделей в задачах переноса обучения, механизмы, лежащие в основе их способности к обнаружению аномалий, остаются малоизученными. В работе ‘Latent Anomaly Knowledge Excavation: Unveiling Sparse Sensitive Neurons in Vision-Language Models’ предлагается новый подход, основанный на гипотезе о том, что знания об аномалиях уже заложены в предобученных моделях, но проявляются лишь при активации небольшого подмножества специализированных нейронов. Предложенный фреймворк LAKE позволяет извлекать эти знания без дополнительного обучения, достигая передовых результатов в задачах промышленной детекции аномалий и обеспечивая интерпретируемость на уровне отдельных нейронов. Может ли такой подход кардинально изменить парадигму обнаружения аномалий, переключив фокус с обучения новых моделей на активацию скрытых возможностей уже существующих?

Погоня за Невидимыми Аномалиями

Традиционные методы обнаружения аномалий часто сталкиваются с трудностями при выявлении отклонений, которые не были представлены в обучающем наборе данных, что приводит к высокой частоте ложных отрицательных результатов. Суть проблемы заключается в том, что алгоритмы, как правило, запоминают существующие закономерности, а не формируют глубокое понимание того, что является “нормальным” поведением. Вследствие этого, любое отклонение, которое не соответствует заученным шаблонам, может остаться незамеченным, особенно в сложных областях, таких как медицинская визуализация или промышленный контроль, где аномалии встречаются редко и могут проявляться в самых разнообразных формах. Высокий уровень ложных отрицательных результатов может иметь серьезные последствия, поскольку невыявленные аномалии могут привести к ошибкам диагностики, дефектам продукции или даже угрозе безопасности.

Существенная проблема традиционных систем обнаружения аномалий заключается в их способности лишь запоминать существующие образцы, а не понимать саму суть «нормальности» и отклонений от неё. Модели, обученные на ограниченном наборе данных, оперируют статистическими закономерностями и не способны к обобщению при встрече с ранее невиданными ситуациями. Фактически, они не различают истинную аномалию от простого отклонения от заученных паттернов, что приводит к высокой вероятности пропустить реальные угрозы или, наоборот, ложно идентифицировать нормальные явления как аномальные. Такой подход ограничивает эффективность систем, особенно в областях, где разнообразие аномалий велико, а их частота крайне мала.

Ограничения традиционных методов обнаружения аномалий особенно ярко проявляются в сложных областях, таких как медицинская визуализация и промышленный контроль. В этих сферах аномалии встречаются крайне редко, что затрудняет обучение моделей на достаточном количестве примеров. Более того, сами аномалии характеризуются огромным разнообразием форм и проявлений, непредсказуемыми для стандартных алгоритмов. Это приводит к высокой вероятности пропустить критически важные отклонения, что может иметь серьезные последствия — от ошибочной диагностики заболеваний до брака в производстве. Таким образом, потребность в более адаптивных и интеллектуальных системах обнаружения аномалий в этих областях становится все более актуальной.

Переход к использованию предварительно обученных моделей, обладающих существующими знаниями о мире, представляет собой перспективный путь к улучшению обобщающей способности систем обнаружения аномалий. Традиционные алгоритмы часто ограничены в своей способности выявлять отклонения, не встречавшиеся в процессе обучения, в то время как предварительно обученные модели, разработанные на больших и разнообразных наборах данных, способны экстраполировать знания и распознавать аномалии, даже если они значительно отличаются от наблюдаемых ранее. Этот подход особенно ценен в областях, где аномалии редки и разнообразны, таких как медицинская визуализация и промышленный контроль, поскольку позволяет моделям опираться на общее понимание мира, а не просто запоминать шаблоны, что значительно снижает количество ложных отрицательных результатов и повышает надежность обнаружения скрытых отклонений.

В отличие от случайных нейронов, демонстрирующих значительный фоновый шум, разработанные нами нейроны, чувствительные к аномалиям, обеспечивают высокоточную локализацию, точно соответствующую эталонным данным.

Раскрытие Скрытых Знаний об Аномалиях

Масштабные предварительно обученные модели, работающие с изображениями и текстом, такие как CLIP, в процессе обучения на больших объемах данных формируют устойчивые представления о визуальном мире. Эти представления не являются результатом явного обучения на аномалиях, а возникают как побочный эффект изучения связей между изображениями и их текстовыми описаниями. Фактически, модель не просто “видит” объекты, но и ассоциирует их с типичными характеристиками и контекстом, что позволяет ей формировать внутреннюю модель “нормальности”. Это подразумевает, что CLIP уже обладает знаниями о том, как обычно выглядят различные сцены и объекты, и может использовать эти знания для выявления отклонений от нормы без дополнительной специализированной тренировки.

Суть подхода заключается в извлечении “скрытых знаний об аномалиях” — предварительно накопленных моделью представлений о типичных сценах и объектах — для выявления отклонений. Крупномасштабные предобученные модели, такие как CLIP, в процессе обучения формируют обобщенное понимание визуального мира, которое включает в себя характеристики нормальных ситуаций. Использование этого существующего знания позволяет идентифицировать аномалии, определяя расхождения между наблюдаемым изображением и тем, что модель считает типичным, без необходимости в специализированных данных для обучения, помеченных как аномальные.

Метод кросс-модальной текстовой активации позволяет исследовать внутренние представления предварительно обученных моделей, таких как CLIP, посредством текстовых запросов. Суть заключается в использовании текстовых подсказок для активации определенных областей изображения, соответствующих концепциям, известным модели. Аномальные регионы выделяются как те, которые вызывают слабую или нерелевантную активацию при использовании этих запросов, поскольку модель не ожидает их появления в типичных сценариях. Фактически, метод использует уже существующие знания модели о визуальном мире для выявления отклонений, не требуя специальной тренировки на аномальных данных.

Использование предварительно обученных моделей, таких как CLIP, позволяет обходить необходимость в обширных наборах данных, специфичных для аномалий. Вместо обучения модели распознаванию аномалий “с нуля”, предлагаемый подход использует знания, уже заложенные в модель в процессе ее обучения на больших объемах данных. Это существенно снижает затраты на сбор и разметку данных для конкретных задач обнаружения аномалий, поскольку модель использует существующие представления о нормальных сценариях и объектах для выявления отклонений. Таким образом, акцент смещается с обучения модели новому, на извлечение и использование уже имеющихся знаний.

В рамках фреймворка LAKE визуальные признаки из слоя <span class="katex-eq" data-katex-display="false">l</span> проецируются в подпространство, отфильтрованное по дисперсии <span class="katex-eq" data-katex-display="false">I_{sens}</span>, сравниваются с нормальной галереей <span class="katex-eq" data-katex-display="false">\mathcal{G}</span> для вычисления визуальной оценки <span class="katex-eq" data-katex-display="false">S_{vis}</span>, а также более глубокие признаки <span class="katex-eq" data-katex-display="false">P^{(l^{\prime})}</span> сопоставляются с текстовыми вложениями <span class="katex-eq" data-katex-display="false">t_{norm}, t_{anom}</span> для извлечения семантической оценки <span class="katex-eq" data-katex-display="false">S_{text}</span>, после чего обе оценки объединяются с весом α для получения итоговой оценки аномалии <span class="katex-eq" data-katex-display="false">SS</span>. — В рамках фреймворка LAKE визуальные признаки из слоя $l$ проецируются в подпространство, отфильтрованное по дисперсии $I_{sens}$ , сравниваются с нормальной галереей $\mathcal{G}$ для вычисления визуальной оценки $S_{vis}$ , а также более глубокие признаки $P^{(l^{\prime})}$ сопоставляются с текстовыми вложениями $t_{norm}, t_{anom}$ для извлечения семантической оценки $S_{text}$ , после чего обе оценки объединяются с весом α для получения итоговой оценки аномалии $SS$ .

Локализация Нейронов, Чувствительных к Аномалиям

Фреймворк LAKE предоставляет интерпретируемый метод для выявления “Нейронов, чувствительных к аномалиям” внутри предварительно обученных моделей. Данный подход позволяет идентифицировать отдельные нейроны, активация которых существенно изменяется при предъявлении нормальных и потенциально аномальных данных. В отличие от “черных ящиков”, LAKE обеспечивает возможность локализации конкретных элементов модели, ответственных за обнаружение аномалий, что способствует пониманию процесса принятия решений моделью и повышает уровень доверия к результатам. Выявление этих нейронов основано на анализе изменений их активации, что позволяет количественно оценить их вклад в определение аномальных паттернов.

Локализация аномалий, чувствительных к нейронам, на основе дисперсии использует так называемый ‘Нормальный опорный набор’ (Normal Support Set) для количественной оценки изменения активации нейрона при предъявлении нормальных и потенциально аномальных данных. Метод заключается в вычислении дисперсии активаций каждого нейрона на нормальном наборе, после чего рассчитывается изменение этой дисперсии при обработке аномальных данных. Более высокое изменение дисперсии указывает на то, что данный нейрон особенно чувствителен к аномалиям, что позволяет выявить ключевые нейроны, участвующие в процессе обнаружения аномалий. Полученные значения дисперсии служат метрикой для ранжирования нейронов по их значимости в контексте обнаружения аномалий, обеспечивая количественную оценку их вклада.

Выявление аномально-чувствительных нейронов позволяет получить представление о причинах, по которым модель классифицирует определенные области как аномальные. Анализ активации этих конкретных нейронов в ответ на входные данные предоставляет информацию о признаках, которые модель использует для обнаружения аномалий. Это способствует повышению доверия к результатам модели, поскольку позволяет не просто констатировать факт наличия аномалии, но и объяснить, на основании каких признаков она была обнаружена. Понимание логики работы модели, основанное на активности ключевых нейронов, является важным шагом к повышению прозрачности и интерпретируемости систем машинного обучения.

Активация нейронов, чувствительных к аномалиям, посредством текстовых запросов позволяет визуально выделить участки входных данных, которые модель классифицирует как подозрительные. Этот процесс заключается в подаче на вход модели текстовых подсказок, спроектированных таким образом, чтобы максимально активировать конкретные нейроны, идентифицированные как ключевые в определении аномалий. В результате, участки входных данных, вызывающие наибольшую активацию этих нейронов, визуально подчеркиваются, предоставляя пользователю наглядное представление о том, какие области привлекли внимание модели и послужили основанием для обнаружения аномалии. Это обеспечивает возможность интерпретации решений модели и повышения доверия к системе обнаружения аномалий.

Визуализация t-SNE показывает значительное пространственное совпадение нейронов, чувствительных к аномалиям, в пяти различных категориях MVTec-AD, что указывает на их обобщенные паттерны активации.

Подтверждение Эффективности и Широкая Применимость

Разработанный фреймворк LAKE демонстрирует высокую эффективность в задачах обнаружения аномалий на различных наборах данных, включая MVTec-AD, VisA, BTAD и Brain-AD. Это подтверждает его универсальность и способность адаптироваться к разнообразным типам изображений и аномалий. В ходе тестирования, система стабильно показывает превосходные результаты, выявляя отклонения в сложных визуальных сценах с высокой точностью. Такая широкая применимость делает LAKE ценным инструментом для решения задач, требующих надежного и точного обнаружения аномалий в различных областях, от промышленного контроля качества до медицинской диагностики.

В отличие от традиционных методов, ограничивающихся классификацией изображения в целом, разработанный подход обеспечивает анализ на уровне отдельных фрагментов (patch-level analysis), что позволяет точно локализовать аномалии даже в сложных сценах. Это означает, что система способна не просто определить наличие дефекта, но и указать его точное местоположение на изображении, что критически важно для задач, требующих высокой точности, например, в дефектоскопии промышленных деталей или в анализе медицинских снимков. Такой детальный анализ значительно повышает эффективность и надежность систем обнаружения аномалий, предоставляя пользователю не только информацию о наличии проблемы, но и визуальное подтверждение её местонахождения.

Разработанный фреймворк LAKE демонстрирует значительное улучшение обобщающей способности моделей обнаружения аномалий, в частности, в случае WinCLIP и ReMP-AD. Эти модели, использующие принципы, заложенные в LAKE, способны эффективно выявлять отклонения даже при ограниченном количестве размеченных данных, что является существенным преимуществом в реальных условиях, где сбор и аннотация данных часто связаны с большими затратами. Вместо того, чтобы полагаться на обширные наборы данных с метками, эти модели используют возможности переноса обучения и самоконтролируемого обучения, что позволяет им адаптироваться к новым, ранее не встречавшимся аномалиям с высокой точностью и надежностью. Такой подход открывает новые возможности для применения систем визуального контроля качества в различных отраслях, где требуется автоматическое обнаружение дефектов или отклонений от нормы.

В ходе анализа данных набора Brain-AD предложенная методика демонстрирует передовые результаты, достигая показателя AUROC в 97.2%, точности PRO — 85.3%, средней точности AP — 52.0% и максимального значения F1-меры — 95.7%. Эти цифры свидетельствуют о высокой эффективности подхода в выявлении аномалий на изображениях мозга, превосходя существующие аналоги по ключевым метрикам. Такая точность позволяет надежно обнаруживать даже незначительные отклонения, что особенно важно для ранней диагностики и мониторинга неврологических заболеваний. Полученные результаты подтверждают перспективность использования данной методики в клинической практике и научных исследованиях.

В ходе тестирования на общепризнанном наборе данных MVTec-AD, предложенный фреймворк LAKE продемонстрировал превосходящие результаты по сравнению с моделью VisualAD. В частности, значение метрики AUROC достигло 94.7%, что на 2.5% выше, чем у VisualAD. Кроме того, показатель PRO, характеризующий точность обнаружения аномалий, составил 88.9%, превысив аналогичный показатель VisualAD на 4.6%. Эти результаты подтверждают эффективность фреймворка LAKE в задачах обнаружения аномалий и указывают на его потенциал для применения в различных областях, требующих высокой точности визуального контроля.

Предложенная методология имеет далеко идущие последствия для отраслей, где визуальный контроль играет ключевую роль. В производстве, автоматизированные системы, использующие данный подход, способны выявлять дефекты продукции на ранних стадиях, значительно повышая качество и снижая издержки. В медицинской диагностике, особенно в анализе изображений мозга, эта технология позволяет врачам более точно и быстро обнаруживать аномалии, что критически важно для своевременного лечения. В сфере безопасности, система может эффективно использоваться для обнаружения подозрительных объектов или действий на основе анализа видеопотока, обеспечивая повышенный уровень защиты и предотвращая потенциальные угрозы. Таким образом, предложенный подход открывает новые возможности для автоматизации и повышения эффективности визуального контроля в различных областях, способствуя повышению качества, безопасности и снижению затрат.

Уменьшение размера опорного множества негативно сказывается на точности обнаружения аномалий на изображениях.

Исследование демонстрирует, что даже в, казалось бы, всемогущих моделях, таких как vision-language модели, существуют скрытые возможности, которые можно извлечь, не прибегая к дорогостоящему обучению. Авторы предлагают подход, основанный на выявлении редких, но критически важных нейронов, реагирующих на аномалии. Это подтверждает давнюю истину: сложные системы редко бывают однородными, и истинная сила часто кроется в периферии. Как однажды заметил Дэвид Марр: «Представление — это не то, что вы делаете, а то, что получается». В данном случае, представление об аномалиях выявляется не путём явного обучения, а путём аккуратной экстракции латентных знаний, что лишь подчеркивает, насколько глубоко можно копать в уже существующих архитектурах, прежде чем объявить их исчерпанными.

Что дальше?

Представленная работа, выявляя разреженные нейроны, чувствительные к аномалиям в моделях «зрение-язык», демонстрирует, как из существующих, уже обученных систем можно извлечь неожиданные способности. Однако, эта элегантность неизбежно столкнётся с суровой реальностью продакшена. Любая абстракция умирает, и рано или поздно найдётся входное изображение, которое заставит эти «чувствительные» нейроны замолчать, или, что ещё вероятнее, начать генерировать совершенно нелогичные описания. Это закономерность.

Перспективы дальнейших исследований, очевидно, лежат в области устойчивости. Как сделать эти разреженные сети более робастными к незначительным изменениям входных данных? Как гарантировать, что способность к обнаружению аномалий не исчезнет при масштабировании моделей или при переходе к новым, непредсказуемым доменам данных? Эти вопросы, конечно, будут решаться, но решение всегда будет временным, и каждая новая оптимизация породит новые уязвимости.

В конечном итоге, всё, что можно задеплоить — однажды упадёт. Но умирает оно, стоит признать, красиво. И в этой красоте, в этой неизбежной энтропии, и заключается вся суть прогресса.

Оригинал статьи: https://arxiv.org/pdf/2604.07802.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-11 01:58