Автор: Денис Аветисян
Исследователи предлагают инновационный метод борьбы с визуальными искажениями в мультимодальных моделях, основанный на генерации контрафактуальных видео.
Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.
Бесплатный Телеграм канал
Представлен фреймворк DualityForge и масштабный датасет DualityVidQA для повышения точности понимания видео нейросетями с использованием контрастного обучения и синтеза данных.
Несмотря на значительный прогресс в области мультимодальных больших языковых моделей, их способность к надежному пониманию видео остается уязвимой из-за склонности к визуальным галлюцинациям, особенно при обработке контрфактуальных сценариев. В работе «Taming Hallucinations: Boosting MLLMs’ Video Understanding via Counterfactual Video Generation» представлен новый подход к решению этой проблемы, основанный на генерации синтетических контрфактуальных данных и контрастном обучении. Предложенная методика DualityForge и масштабный набор данных DualityVidQA позволяют значительно снизить склонность моделей к галлюцинациям, улучшая их способность к осмысленному анализу видео. Сможет ли этот подход открыть новые возможности для создания действительно надежных и интеллектуальных систем видеопонимания?
Визуальные Галлюцинации в Мультимодальных Моделях: Сущность Проблемы
Мультимодальные большие языковые модели (MLLM) демонстрируют тревожную склонность к визуальным галлюцинациям — генерации текстовых описаний, не соответствующих представленному визуальному контенту. Это явление проявляется в искажении деталей, добавлении несуществующих объектов или полной нерелевантности текста изображению. Например, модель может описать фотографию кошки как собаку, или указать на наличие предмета, которого на самом деле нет в кадре. Данная проблема существенно ограничивает надежность и практическое применение MLLM в задачах, требующих точного восприятия и интерпретации визуальной информации, таких как автоматическое описание изображений, визуальный вопрос-ответ и робототехника.
Несоответствия в ответах мультимодальных больших языковых моделей (MLLM) возникают из-за недостаточной связи между визуальным входом и генерируемым текстом. Модели зачастую оперируют не напрямую с визуальными данными, а с их абстрактным представлением, что приводит к неверной интерпретации и, как следствие, к галлюцинациям. Это отсутствие надежного “якоря” в визуальной реальности существенно ограничивает возможности MLLM в задачах, требующих точного анализа изображений и логических выводов, например, в медицинской диагностике или автономном вождении. В результате, даже незначительные погрешности в интерпретации визуальной информации могут привести к ошибочным решениям и непредсказуемым последствиям, подчеркивая необходимость разработки методов, обеспечивающих более прочную связь между текстом и визуальными данными.
Существующие подходы к смягчению проблемы визуальных галлюцинаций в мультимодальных больших языковых моделях (MLLM) показывают ограниченную эффективность. Несмотря на разработку различных стратегий, таких как улучшение механизмов внимания или использование дополнительных данных для обучения, модели продолжают генерировать текстовые описания, не соответствующие визуальному контенту. Эта неспособность надежно связывать текст с изображением приводит к ненадежным результатам, что существенно ограничивает возможности практического применения MLLM в критически важных областях, таких как медицинская диагностика, автономное вождение и анализ данных, где точность и достоверность информации имеют первостепенное значение. Необходимость разработки более совершенных методов, способных обеспечить надежную привязку текстовых генераций к визуальному входу, остается актуальной задачей для исследователей в области искусственного интеллекта.

DualityVidQA: Контрастный Датасет для Надежного Понимания Видео
Представляем DualityVidQA — масштабный набор данных для понимания видео, состоящий из пар реальных и контрфактических видеороликов. Набор данных включает в себя 144 тысячи обучающих примеров и предназначен для оценки способности моделей различать и интерпретировать видеоконтент, даже при незначительных изменениях или нарушениях в визуальной информации. Контрфактические видео создаются путем контролируемого редактирования реальных видео, что позволяет создавать сложные примеры для тестирования и улучшения алгоритмов понимания видео.
Набор данных DualityVidQA был создан с использованием DualityForge — платформы для контролируемого редактирования видео. DualityForge позволяет целенаправленно вносить изменения в видеоматериал, формируя пары “реальное видео” и “контрфактическое видео”. Контролируемое редактирование включает в себя манипулирование различными аспектами видео, такими как визуальные искажения и семантические несоответствия, что позволяет создавать сложные примеры для оценки устойчивости моделей видеопонимания. Такой подход обеспечивает возможность генерации контрастных примеров, предназначенных для выявления слабых мест в существующих алгоритмах и стимулирования разработки более надежных систем анализа видео.
Набор данных DualityVidQA способствует развитию более тонкого и устойчивого понимания визуального контента у моделей, предъявляя им как реалистичные, так и незначительно измененные видеофрагменты. Такой подход позволяет выявить и смягчить проблемы, связанные с визуальными искажениями и семантическими несоответствиями, поскольку модели вынуждены анализировать различия между правдоподобными и слегка измененными сценариями. Это способствует улучшению способности моделей к обобщению и повышению их надежности в условиях неидеальных или неполных данных, а также в ситуациях, когда визуальные подсказки могут быть обманчивы или неполны.
Набор данных DualityVidQA включает в себя 144 тысячи обучающих примеров, созданных с использованием контрфактуальных видеороликов. Для генерации этих роликов применялись манипуляции с распространенными аномалиями, такими как видеоискажения, семантические несоответствия и нарушения здравого смысла. Целью этих манипуляций является создание сложных примеров, позволяющих оценить способность моделей к устойчивому пониманию видеоконтента и выявлению несоответствий в визуальной информации.

DNA-Train: Двухэтапное Обучение для Снижения Галлюцинаций
DNA-Train представляет собой двухэтапный режим обучения, разработанный для снижения галлюцинаций и повышения качества понимания видео, и основан на базе модели Qwen2.5-VL. Этот подход позволяет добиться более точной интерпретации видеоконтента и снизить вероятность генерации неверной или вводящей в заблуждение информации. Использование двух этапов обучения позволяет сначала установить базовое соответствие между видео и текстом, а затем усилить способность модели выявлять и корректировать несоответствия, что в конечном итоге улучшает общую надежность и точность системы.
На первом этапе обучения, использующем метод Supervised Fine-Tuning (SFT), модель Qwen2.5-VL инициализируется для формирования базового понимания соответствия между видео и текстовыми описаниями. SFT предполагает обучение модели на размеченном наборе данных, где каждой видеозаписи соответствует корректное текстовое описание. Этот процесс позволяет модели научиться сопоставлять визуальные элементы в видео с соответствующими текстовыми фразами, что является необходимым условием для последующего этапа обучения с подкреплением и снижения вероятности возникновения галлюцинаций. Использование SFT обеспечивает стабильную отправную точку для дальнейшей оптимизации модели в контексте понимания видеоконтента.
Второй этап обучения использует обучение с подкреплением (RL) на основе датасета DualityVidQA для повышения способности модели выявлять и исправлять несоответствия в понимании видео. DualityVidQA содержит видео и вопросы, требующие анализа визуального контента и сопоставления его с текстовой информацией. RL позволяет модели получать вознаграждение за правильные ответы и штрафы за неточности, что способствует улучшению ее способности к логическому выводу и снижению вероятности галлюцинаций при генерации ответов на вопросы по видео.
Для повышения стабильности обучения и предотвращения проблем с градиентами на этапе обучения с подкреплением (RL) применяется ℓ_1-нормализация. Этот метод регуляризации способствует разреженности весов модели, что снижает риск взрывных градиентов и улучшает обобщающую способность. ℓ_1-нормализация вычисляет сумму абсолютных значений весов и добавляет ее к функции потерь, заставляя некоторые веса стремиться к нулю. Это упрощает модель и делает процесс обучения более устойчивым, особенно при работе с большими языковыми моделями и сложными наборами данных, такими как DualityVidQA.

Эффективность и Более Широкие Последствия для Надежных MLLM
Методика DNA-Train демонстрирует стабильное превосходство над базовыми подходами, такими как GRPO и DAPO, в рамках теста DualityVidQA-Test. Это свидетельствует о значительно более высокой способности системы обнаруживать визуальные галлюцинации — ложные утверждения, не подтвержденные визуальным содержанием. В ходе тестирования DNA-Train последовательно выявляет несоответствия между описанием и видеорядом, что позволяет предположить более глубокое понимание визуальной информации и более надежную генерацию ответов. Подобная точность в выявлении галлюцинаций критически важна для повышения доверия к мультимодальным большим языковым моделям (MLLM) и их потенциального применения в областях, требующих безошибочной интерпретации визуальных данных.
Достигнута передовая точность обнаружения галлюцинаций, составившая 76.8% на бенчмарке DualityVidQA-Test. Данный показатель демонстрирует эффективность предложенного подхода в выявлении несоответствий между визуальным содержанием и текстовыми ответами мультимодальных больших языковых моделей (MLLM). Такой уровень точности значительно превосходит существующие методы и свидетельствует о способности системы надежно оценивать достоверность генерируемой информации, основываясь на визуальных данных. Полученный результат открывает перспективы для создания более надежных и заслуживающих доверия MLLM, способных к точному визуальному рассуждению и принятию обоснованных решений.
Полученные результаты демонстрируют, что предложенный подход эффективно связывает большие мультимодальные модели (MLLM) с визуальными данными, что существенно повышает надёжность и достоверность генерируемых ответов. Вместо того чтобы полагаться на абстрактные знания или языковые паттерны, модель теперь опирается на конкретные визуальные свидетельства, представленные в данных. Это приводит к снижению вероятности «галлюцинаций» — генерации неверной или не подкрепленной визуальной информацией — и повышает уверенность в правильности ответов, что особенно важно для приложений, требующих высокой точности и ответственности, таких как автономная навигация или медицинская диагностика. Таким образом, данная работа способствует созданию MLLM, которым можно доверять в ситуациях, где достоверность информации имеет первостепенное значение.
Представленная работа открывает перспективы для создания мультимодальных больших языковых моделей (MLLM), которые могут быть с уверенностью использованы в реальных задачах, требующих точного визуального рассуждения. Значительные улучшения в обнаружении визуальных галлюцинаций, подтвержденные превосходством над другими моделями открытого исходного кода и конкурентоспособными результатами по сравнению с GPT-4o на бенчмарках MVBench и TVBench, позволяют рассматривать возможность применения этих моделей в таких критически важных областях, как автономная навигация и медицинская диагностика. Повышенная точность и надежность MLLM, достигаемые благодаря данной разработке, способствуют формированию доверия к их решениям и расширяют спектр потенциальных приложений, требующих безошибочной интерпретации визуальной информации.

Исследование, представленное в данной работе, демонстрирует стремление к математической чистоте в области мультимодальных больших языковых моделей. Авторы предлагают подход, основанный на генерации контрфактических видеоданных, что позволяет снизить вероятность визуальных галлюцинаций — явного проявления некорректности в ответах модели. Этот метод, по сути, представляет собой попытку доказать корректность работы модели путем создания данных, которые явно проверяют её способность к логическому мышлению. Как отмечал Ян Лекун: «Машинное обучение — это просто поиск шаблонов». Однако, в данном случае, речь идет не просто о поиске, а о создании условий, в которых эти шаблоны можно проверить на предмет соответствия реальности и логической непротиворечивости. Использование контрастного обучения в рамках DualityForge является ярким примером стремления к доказательству, а не просто к эмпирической проверке работоспособности.
Куда Далее?
Представленная работа, безусловно, представляет собой шаг вперёд в приручении склонности больших мультимодальных моделей к галлюцинациям. Однако, истинная элегантность решения не измеряется объёмом созданного датасета или сложностью алгоритма контрастивного обучения. Проблема визуальных галлюцинаций коренится глубже — в самой архитектуре моделей и их неспособности к надёжному причинно-следственному мышлению. Создание «противоположных» видео — это лишь паллиативное средство, а не радикальное исцеление.
Будущие исследования должны сосредоточиться не на синтезе данных, а на разработке моделей, способных к верификации собственных выводов. Недостаточно просто научить модель отличать «правду» от «лжи» на заранее подготовленных примерах; необходимо, чтобы модель могла самостоятельно задавать вопросы о реальности и получать на них достоверные ответы. Важным направлением представляется исследование методов формальной верификации для мультимодальных моделей — доказательство корректности их работы, а не просто демонстрация успешного прохождения тестов.
В конечном счёте, задача состоит не в том, чтобы «обмануть» модель, заставив её выдавать желаемые ответы, а в том, чтобы создать интеллектуальную систему, способную к самокритике и самосовершенствованию. И лишь тогда можно будет говорить о подлинном прогрессе в области искусственного интеллекта, а не о временных уловках и искусственных улучшениях метрик.
Оригинал статьи: https://arxiv.org/pdf/2512.24271.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- ПРОГНОЗ ДОЛЛАРА К ШЕКЕЛЮ
- БИТКОИН ПРОГНОЗ. BTC криптовалюта
- ЭФИРИУМ ПРОГНОЗ. ETH криптовалюта
- SOL ПРОГНОЗ. SOL криптовалюта
- ДОГЕКОИН ПРОГНОЗ. DOGE криптовалюта
- ZEC ПРОГНОЗ. ZEC криптовалюта
- РИППЛ ПРОГНОЗ. XRP криптовалюта
- SAROS ПРОГНОЗ. SAROS криптовалюта
- FARTCOIN ПРОГНОЗ. FARTCOIN криптовалюта
- PEPE ПРОГНОЗ. PEPE криптовалюта
2026-01-04 00:44