Видит ли модель то, что говорит? Новый способ выявления галлюцинаций в системах «зрение-язык»

Автор: Денис Аветисян

Исследователи разработали метод, позволяющий предсказывать, когда мультимодальные модели начинают «придумывать» информацию, еще до генерации текста.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Для выявления галлюцинаций в процессе декодирования извлекаются и анализируются три типа представлений: векторы визуальных признаков, состояния токенов зрения, полученные из конечного слоя обработки визуальных патчей, и состояния токенов запросов, полученные из того же слоя, что позволяет прогнозировать галлюцинации до завершения декодирования.

Предлагаемый фреймворк HALP анализирует внутренние представления модели, чтобы выявлять потенциальные галлюцинации в задачах визуального вопросно-ответного взаимодействия (VQA) без генерации дополнительных токенов.

Визуально-языковые модели (VLM) демонстрируют впечатляющую способность к мультимодальному рассуждению, однако склонность к «галлюцинациям» — генерации не соответствующих действительности описаний — остается серьезной проблемой. В работе ‘HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token’ предложен новый подход к выявлению таких галлюцинаций, основанный на анализе внутренних представлений модели до начала генерации текста. Исследование показало, что предсказание риска галлюцинаций возможно на основе анализа скрытых слоев VLM, достигая показателя $0.93$ AUROC на моделях Gemma-3 и Phi-4-VL. Может ли HALP стать основой для разработки систем, способных к адаптивному декодированию и повышению безопасности и эффективности VLM в реальных приложениях?

Иллюзия Реальности: Проблема Галлюцинаций в Мультимодальных Моделях

Современные модели, объединяющие зрение и язык, такие как Gemma-3 и LLaVA-Next, демонстрируют впечатляющие возможности в понимании и генерации контента на основе визуальной информации. Однако, несмотря на значительный прогресс, эти модели подвержены феномену, известному как “галлюцинации”, когда они генерируют ответы, не соответствующие действительности или лишенные логического смысла. Несмотря на способность обрабатывать изображения и связывать их с текстовыми описаниями, модели могут создавать неправдоподобные детали, искажать факты или предлагать абсурдные интерпретации визуального контекста. Этот недостаток представляет серьезную проблему для надежности и практического применения этих технологий, поскольку сгенерированный контент требует тщательной проверки на соответствие реальности.

Галлюцинации, проявляющиеся в виде генерации фактических неточностей или бессмысленных утверждений моделями, работающими с изображениями и текстом, представляют собой серьезную проблему для практического применения этих технологий. Недостоверность выходных данных подрывает доверие к системам, используемым в критически важных областях, таких как медицинская диагностика, автономное вождение и анализ данных. Например, неверная интерпретация изображения рентгеновского снимка или ошибочное описание дорожной ситуации может привести к серьезным последствиям. Таким образом, необходимость в надежных и точных моделях, способных избежать галлюцинаций, становится все более актуальной для обеспечения безопасного и эффективного использования этих передовых технологий в реальном мире.

Существующие методы выявления и смягчения галлюцинаций в визуально-языковых моделях демонстрируют ограниченную эффективность, особенно в условиях непредсказуемости реальных сценариев. Автоматическое обнаружение несоответствий между визуальным входом и генерируемым текстом представляет собой сложную задачу, требующую не только анализа семантического содержания, но и учета контекстуальных нюансов и потенциальных неоднозначностей. В связи с этим, возникает потребность в разработке принципиально новых подходов, включающих, например, механизмы самооценки достоверности генерируемого контента или использование внешних источников знаний для верификации фактов. Повышение надежности и достоверности визуально-языковых моделей является ключевым условием для их успешного применения в критически важных областях, таких как медицина, образование и автономные системы.

Оценка вероятности галлюцинаций модели Qwen2.5-VL-7B на данных из 8 различных областей VLM (соответствующих распределению данных на рис. 3(a)) показывает, что предсказывая галлюцинации на основе предварительно сгенерированных признаков <span class="katex-eq" data-katex-display="false">VF</span>, <span class="katex-eq" data-katex-display="false">VT</span> и <span class="katex-eq" data-katex-display="false">QT</span> (определенных в разделе 3.3), можно оценить склонность модели к генерации недостоверной информации. — Оценка вероятности галлюцинаций модели Qwen2.5-VL-7B на данных из 8 различных областей VLM (соответствующих распределению данных на рис. 3(a)) показывает, что предсказывая галлюцинации на основе предварительно сгенерированных признаков $VF$ , $VT$ и $QT$ (определенных в разделе 3.3), можно оценить склонность модели к генерации недостоверной информации.

Раннее Обнаружение: Анализ Внутренних Представлений Модели

В рамках HALP используется новый подход к выявлению галлюцинаций в визуальных языковых моделях (VLM) путем анализа их внутренних представлений. В основе метода лежит MLP-зонд (многослойный перцептрон), который классифицирует риск возникновения галлюцинаций, оценивая состояния модели до генерации текста. Этот зонд обучается на внутренних представлениях VLM, позволяя прогнозировать вероятность появления неверной информации и, таким образом, предоставляя возможность для принятия мер по смягчению проблемы до формирования ответа.

Предварительное зондирование (Pre-Generation Probing) использует внутренние состояния визуально-языковой модели (VLM), в частности, представления визуальных токенов (VT) и токенов запроса (QT), для прогнозирования вероятности возникновения галлюцинаций до этапа генерации текста декодером. Анализ VT, представляющих визуальные признаки, и QT, отражающих контекст запроса, позволяет оценить риск неточностей в генерируемом ответе на основе внутренних представлений модели, что потенциально позволяет предотвратить генерацию вводящей в заблуждение или нерелевантной информации.

Процесс получения визуальных признаков (VF) начинается с Vision Encoder, который обрабатывает входное изображение и извлекает релевантные характеристики. Полученные VF затем подвергаются мультимодальной проекции — преобразованию, которое сопоставляет визуальное пространство признаков с входным пространством языковой модели. Эта проекция необходима для обеспечения совместимости между визуальной и текстовой информацией, позволяя модели эффективно интегрировать визуальные данные в процесс генерации текста. В результате, визуальная информация представляется в формате, понятном для языковой модели, что является ключевым этапом в предсказании потенциальных галлюцинаций.

Эффективность предложенного подхода к раннему обнаружению галлюцинаций в визуальных языковых моделях (VLM) была подтверждена использованием метрики AUROC. На моделях Gemma-3, Phi-4-VL и Molmo достигнуты значения AUROC до ~0.93. При использовании визуальных признаков (VF) модель Qwen2.5-VL-7B показала AUROC 0.7873, а FastVLM-7B, использующая представления Vision Tokens (VT), — 0.7093. Данные результаты демонстрируют способность HALP framework эффективно предсказывать риск галлюцинаций до генерации текста.

Анализ оценок зондирования показывает, что более высокие значения указывают на повышенную вероятность галлюцинаций в ответах модели Qwen2.5-VL-7B.

Предотвращение Ошибок: Стратегии Смягчения Последствий

В дополнение к обнаружению галлюцинаций, разрабатываются стратегии смягчения последствий, такие как «Ранний отказ» (Early Refusal), при которой модель отказывается отвечать на вопросы, связанные с высоким риском генерации недостоверной информации. Другой подход — «Селективная маршрутизация» (Selective Routing), направляющая проблемные входные данные к более мощным моделям, способным обеспечить более точные ответы. Эти методы позволяют проактивно предотвратить генерацию галлюцинаций, в отличие от подходов, фокусирующихся исключительно на постфактум обнаружении ошибок.

Методы смягчения, такие как ранний отказ от ответа и селективная маршрутизация, дополняют подход прегенерационной проверки, обеспечивая упреждающую защиту от генерации галлюцинаций. В отличие от реактивного выявления ложной информации после генерации, данные стратегии направлены на предотвращение её возникновения на этапе обработки входных данных или выбора модели. Это достигается за счет отказа от ответа на потенциально проблемные вопросы или перенаправления запроса на более компетентную модель, способную обеспечить более точный и достоверный ответ, что повышает общую надежность системы.

Для оценки эффективности стратегий смягчения галлюцинаций используются стандартные бенчмарки VQA (Visual Question Answering). Проверка осуществляется с помощью автоматической разметки, выполняемой моделями, такими как GPT-4, что позволяет оценить снижение частоты галлюцинаций без ухудшения общей производительности. Высокая степень согласованности между оценками GPT-4 и разметкой, выполненной людьми-аннотаторами (коэффициент Флейсса равен 0.89), подтверждает надежность используемых методов оценки и валидность полученных результатов.

Исследования показали, что применение стратегий смягчения последствий, таких как ранний отказ от ответа и селективная маршрутизация, эффективно снижает количество галлюцинаций в различных моделях визуальных вопросов и ответов. В частности, модели FastVLM, Molmo, Qwen2.5-VL и SmolVLM демонстрируют улучшение показателей точности и достоверности ответов при использовании данных методов. Эффективность этих стратегий подтверждается результатами оценки на VQA бенчмарках и данными, полученными с использованием GPT-4 для маркировки галлюцинаций.

Анализ распределения данных в наборе для обнаружения галлюцинаций показывает разнообразие областей задач, форматов ответов и типов вопросов, способствующих возникновению галлюцинаций.

Будущее Мультимодальных Моделей: Стремление к Надежности и Достоверности

Несмотря на значительный прогресс в области визуально-языковых моделей, проблема генерации галлюцинаций — то есть, выдачи не соответствующих действительности или контексту утверждений — требует дальнейшего углубленного изучения. Продолжающиеся исследования направлены на совершенствование существующих методов смягчения этого явления, а также на выявление тонкостей его проявления в различных типах данных и модальностях. Особое внимание уделяется анализу того, как характеристики обучающих наборов данных, архитектура модели и применяемые стратегии смягчения влияют на склонность к галлюцинациям. Исследователи стремятся разработать более надежные и точные модели, способные генерировать информацию, полностью соответствующую визуальному входу и контексту, что критически важно для широкого спектра практических применений.

Для достижения действительно устойчивых и надежных моделей, объединяющих зрение и язык, необходимо глубокое изучение взаимосвязи между архитектурой самой модели, используемыми обучающими данными и применяемыми стратегиями смягчения негативных эффектов. Исследования показывают, что оптимальная архитектура может значительно снизить склонность модели к галлюцинациям, однако ее эффективность напрямую зависит от качества и репрезентативности данных, на которых она обучается. Разработка эффективных стратегий смягчения, таких как методы фильтрации и корректировки выходных данных, требует учета особенностей как архитектуры, так и данных. Таким образом, лишь комплексный подход, учитывающий все три аспекта, позволит создать модели, способные генерировать точные и достоверные ответы на запросы, основанные на визуальной информации.

Разработка стандартизированных эталонов и метрик оценки представляется ключевым фактором для поступательного развития мультимодальных моделей, объединяющих зрение и язык. Отсутствие общепринятых критериев затрудняет объективное сравнение различных подходов и препятствует выявлению наиболее эффективных стратегий. Внедрение унифицированных бенчмарков позволит исследователям более точно измерять прогресс, выявлять слабые места и ускорять внедрение инноваций в данной области. Стандартизация оценочных процедур не только повысит прозрачность исследований, но и обеспечит возможность воспроизведения результатов, что критически важно для формирования доверия к этим технологиям и их успешного применения в различных сферах — от автоматизированного анализа изображений до создания интеллектуальных помощников.

В конечном счете, последовательные усилия по совершенствованию моделей, объединяющих зрение и язык, откроют дорогу к реализации их полного потенциала. Эти модели смогут стать надежными помощниками в широком спектре приложений — от автоматизированной обработки медицинских изображений и точной диагностики заболеваний до создания интеллектуальных систем поддержки принятия решений в различных отраслях промышленности. Развитие данной технологии позволит значительно улучшить доступность информации, автоматизировать рутинные задачи и предоставить пользователям персонализированные решения, способствуя повышению эффективности и качества жизни. Ожидается, что надежные и точные модели, способные понимать и интерпретировать визуальный мир, станут неотъемлемой частью будущего, в котором человек и искусственный интеллект работают вместе для достижения общих целей.

Площадь под ROC-кривой (AUROC) для финального представления Vision Token демонстрирует зависимость от слоя декодера, указывая на оптимальный уровень обработки информации на определённых слоях.

Представленная работа демонстрирует изящный подход к проблеме галлюцинаций в визуально-языковых моделях. HALP, предлагаемый фреймворк, позволяет предвидеть потенциальные ошибки, анализируя внутренние представления модели до генерации текста. Этот метод, избегая необходимости генерировать дополнительный токен, является элегантным решением, согласующимся с принципом масштабируемости красоты и отбрасывающим ненужный шум. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект — это не просто технология; это отражение нас самих». HALP, по сути, является зеркалом, позволяющим увидеть потенциальные несоответствия в логике модели и тем самым повысить надежность мультимодального рассуждения.

Куда же дальше?

Представленный подход, HALP, подобен настройке тонкого инструмента. Он позволяет уловить фальшь в ответах визуально-языковых моделей до того, как эта фальшь прозвучит. Однако, даже идеально настроенный инструмент не заменит музыканта. Остаётся открытым вопрос о том, как эффективно использовать предсказанные галлюцинации. Простое игнорирование ошибочных ответов — решение грубое, словно диссонанс. Необходимо исследовать способы коррекции внутренних представлений, чтобы модель, словно опытный импровизатор, могла обходить ложные пути.

Более того, текущая работа фокусируется на обнаружении галлюцинаций в уже обученных моделях. Но истинная элегантность заключается в предотвращении их возникновения. Следующим шагом видится разработка методов обучения, которые бы поощряли внутреннюю согласованность и критическое отношение к входным данным. Ведь любой, даже самый сложный, алгоритм — лишь отражение несовершенства данных, на которых он обучен.

И, наконец, важно помнить, что галлюцинации — это не просто ошибка, а признак сложности. Модель, способная к творческому мышлению, неизбежно будет иногда ошибаться. Задача исследователя — не искоренить эти ошибки полностью, а научиться понимать их природу и использовать их для создания более гибких и адаптивных систем. Ведь в конечном итоге, красота заключается в гармонии между порядком и хаосом.

Оригинал статьи: https://arxiv.org/pdf/2603.05465.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-08 01:46