Когда слова теряют свой голос: Асимметрия в мультимодальных моделях

Исследование выявило систематические несоответствия в генерации подписей к изображениям моделями Claude-3.5-Sonnet, Gemini-1.5-Pro и GPT-4o: несмотря на включение описаний цвета и ракурса, сгенерированные изображения демонстрируют схожие цвето-текстурные эффекты, игнорируют точный оттенок, а также не согласуются с указанным углом обзора, что указывает на фундаментальные ограничения в способности моделей точно интерпретировать и воспроизводить визуальные атрибуты.

Новое исследование показывает, что уникальный стиль языковых моделей часто исчезает при переводе в изображения, обнажая слабые места в понимании и следовании инструкциям.

Восстановление из перегруженных данных: новый подход к обработке аудио и изображений

В исследовании показано, что смещение в процессе реконструкции сигнала [latex]\bm{x}[/latex] может препятствовать восстановлению при малых амплитудах, однако устранение этого смещения приводит к гомогенности сети и улучшает качество реконструкции, что демонстрируется на примере сигнала [latex]\frac{\bm{x}}{10}[/latex].

Исследователи разработали метод самообучения, позволяющий восстанавливать информацию из сильно искаженных сигналов, не требуя предварительно размеченных данных.

Почему языковые модели диффузии не могут генерировать текст параллельно?

В отличие от стандартных моделей декодирования, таких как LLaDA и Dream, демонстрирующих строгую авторегрессию в процессе генерации токенов, предложенный метод NAP преодолевает однопоточность, одновременно генерируя множественные траектории рассуждений, что позволяет выйти за рамки последовательной генерации и обеспечивает более гибкий и эффективный процесс декодирования, в то время как случайное декодирование, лишенное структуры, не позволяет добиться аналогичных результатов.

Новое исследование объясняет, почему модели, основанные на диффузии, испытывают трудности с одновременной генерацией текста и предлагает способ решения этой проблемы.