Когда слова теряют свой голос: Асимметрия в мультимодальных моделях

Исследование выявило систематические несоответствия в генерации подписей к изображениям моделями Claude-3.5-Sonnet, Gemini-1.5-Pro и GPT-4o: несмотря на включение описаний цвета и ракурса, сгенерированные изображения демонстрируют схожие цвето-текстурные эффекты, игнорируют точный оттенок, а также не согласуются с указанным углом обзора, что указывает на фундаментальные ограничения в способности моделей точно интерпретировать и воспроизводить визуальные атрибуты.

Новое исследование показывает, что уникальный стиль языковых моделей часто исчезает при переводе в изображения, обнажая слабые места в понимании и следовании инструкциям.