Авторегрессия возвращается: новый подход к классификации изображений

Автор: Денис Аветисян


Исследователи предложили усовершенствованную авторегрессионную модель, превосходящую диффузионные модели по точности и устойчивости к изменениям в данных.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал
Генеративные классификаторы демонстрируют зависимость между точностью классификации и вычислительной эффективностью: при увеличении размера модели наблюдается рост точности, однако время, затрачиваемое на классификацию одного изображения, также увеличивается, что указывает на компромисс между производительностью и скоростью работы.
Генеративные классификаторы демонстрируют зависимость между точностью классификации и вычислительной эффективностью: при увеличении размера модели наблюдается рост точности, однако время, затрачиваемое на классификацию одного изображения, также увеличивается, что указывает на компромисс между производительностью и скоростью работы.

Представлен метод классификации изображений на основе порядка маргинализации авторегрессионных моделей, демонстрирующий передовые результаты и повышенную надежность.

Несмотря на успехи диффузионных моделей в генеративном моделировании изображений, авторегрессионные (AR) модели часто уступают им в точности классификации. В работе ‘Revisiting Autoregressive Models for Generative Image Classification’ авторы пересматривают потенциал AR-моделей, выявляя ключевое ограничение — зависимость от фиксированного порядка токенов, накладывающего жесткие ограничения на понимание изображения. Предложенный подход, основанный на усреднении предсказаний по различным порядкам токенов, позволяет раскрыть высокую классификационную способность AR-моделей, превосходя диффузионные аналоги и демонстрируя до 25-кратную эффективность. Какие перспективы открывает маргинализация по порядку токенов для создания более надежных и эффективных генеративных классификаторов?


Пределы Дискриминативного Зрения

Традиционные методы компьютерного зрения, такие как DINOv2, зачастую полагаются не на истинное понимание формы объектов, а на выявление ложных корреляций и текстурных особенностей. Вместо анализа структуры и очертаний, алгоритмы могут фокусироваться на случайных деталях фона или специфических узорах, присутствующих на изображениях. Это приводит к тому, что системы демонстрируют высокую точность на проверенных наборах данных, но оказываются уязвимыми при малейших изменениях в освещении, ракурсе или при появлении незнакомых текстур. Вместо понимания «что» изображено, алгоритмы научаются ассоциировать определенные текстуры с определенными классами, что ограничивает их способность к обобщению и надежной работе в реальных условиях.

Несмотря на впечатляющую точность в 88.8% на наборе данных ImageNet-Val, достигнутую моделью DINOv2-XL, современные системы компьютерного зрения демонстрируют хрупкость и недостаточную обобщающую способность. Эта уязвимость проявляется при столкновении с незначительными, но намеренно сконструированными искажениями — так называемыми “состязательными примерами” — или при изменении распределения данных, с которыми модель обучалась. Такая нестабильность указывает на то, что алгоритмы часто опираются на поверхностные признаки и текстурные особенности, а не на глубокое понимание формы и структуры объектов, что ограничивает их надежность в реальных условиях и ставит под сомнение истинную “интеллектуальность” систем.

Современные дискриминативные модели компьютерного зрения, несмотря на впечатляющие показатели точности, демонстрируют фундаментальное ограничение: зависимость от текстурных особенностей изображения, а не от понимания его формы. Исследования показывают, что такие модели часто улавливают поверхностные корреляции, а не суть объектов, что приводит к хрупкости и недостаточной обобщающей способности. Данная тенденция подчеркивает необходимость перехода к генеративным моделям, способным создавать собственные представления объектов, основанные на их структуре и свойствах, а не просто классифицировать существующие изображения по признакам текстуры. Такой подход позволит создавать более надежные и устойчивые системы компьютерного зрения, способные адаптироваться к изменяющимся условиям и решать сложные задачи.

Анализ ошибок показывает, что RandAR-XL и DINOv2-XL демонстрируют схожие провалы в распознавании сложных сцен с несколькими объектами или визуально близкими категориями, о чем свидетельствуют значения дискриминативной логарифмической вероятности для правильных и ошибочных классов.
Анализ ошибок показывает, что RandAR-XL и DINOv2-XL демонстрируют схожие провалы в распознавании сложных сцен с несколькими объектами или визуально близкими категориями, о чем свидетельствуют значения дискриминативной логарифмической вероятности для правильных и ошибочных классов.

Генеративные Классификаторы: Новый Подход

Генеративные классификаторы представляют собой перспективное решение благодаря способности моделировать базовое распределение данных. В отличие от дискриминативных моделей, которые непосредственно учатся отображать входные данные в классы, генеративные модели строят вероятностную модель данных каждого класса. Это позволяет им создавать новые образцы, схожие с теми, что наблюдались в обучающей выборке, и, как следствие, формировать более устойчивые представления. Обучение модели распределению данных, а не просто границе принятия решений, способствует улучшению обобщающей способности и снижению чувствительности к шуму и выбросам. Такой подход обеспечивает не только повышение точности классификации, но и возможность интерпретации процесса принятия решений, поскольку модель явно представляет знания о структуре данных.

Генеративные классификаторы используют правило Байеса для интеграции априорных знаний с наблюдаемыми данными, что позволяет повысить точность классификации и снизить зависимость от ложных корреляций. В рамках этого подхода, вероятность принадлежности объекта к определенному классу оценивается на основе P(C|X) = \frac{P(X|C)P(C)}{P(X)}, где P(X|C) — вероятность наблюдения данных X при условии, что объект принадлежит классу C, P(C) — априорная вероятность класса C, а P(X) — полная вероятность данных X. Интеграция априорных знаний, выраженных в P(C), позволяет модели корректировать оценки, основанные исключительно на данных, и избегать переобучения на случайных закономерностях, тем самым улучшая обобщающую способность.

Диффузионные модели и авторегрессионные модели представляют собой два основных класса генеративных моделей, активно способствующих развитию генеративной классификации. Диффузионные модели, такие как Denoising Diffusion Probabilistic Models (DDPM), работают путем последовательного добавления гауссовского шума к данным, а затем обучения нейронной сети для обратного процесса — удаления шума и восстановления исходных данных. Авторегрессионные модели, напротив, генерируют данные последовательно, предсказывая каждый элемент на основе предыдущих. Примерами являются PixelCNN и Transformer-based модели. Обе категории демонстрируют высокую эффективность в генерации реалистичных данных и, как следствие, улучшении точности и надежности классификаторов, особенно в задачах, где доступ к размеченным данным ограничен.

Предложенный генеративный подход к классификации изображений, использующий VQ-VAE для токенизации и случайную перестановку последовательностей, предсказывает вероятность принадлежности к классу <span class="katex-eq" data-katex-display="false"> \log p(\mathbf{x}|c\_{i}) </span> для выбора наиболее вероятного класса <span class="katex-eq" data-katex-display="false"> c^* </span>.
Предложенный генеративный подход к классификации изображений, использующий VQ-VAE для токенизации и случайную перестановку последовательностей, предсказывает вероятность принадлежности к классу \log p(\mathbf{x}|c\_{i}) для выбора наиболее вероятного класса c^* .

RandAR: Открытие Гибкой Генерации Изображений

RandAR представляет собой существенный прогресс в области авторегрессионного моделирования изображений. В отличие от традиционных подходов, основанных на последовательном, растровом порядке токенов, RandAR позволяет генерировать изображения в произвольном порядке обработки токенов. Это достигается за счет отказа от жесткой привязки к последовательному сканированию изображения, что позволяет модели более эффективно улавливать сложные взаимосвязи между различными частями изображения и повышает гибкость процесса генерации. Такая архитектура открывает возможности для параллельной генерации и более эффективного использования вычислительных ресурсов.

Гибкость модели RandAR достигается за счет комбинации VQ-VAE для токенизации изображений и инновационной техники Order-Marginalization. VQ-VAE позволяет представить изображение в виде дискретной последовательности токенов, что облегчает обработку авторегрессионной моделью. Order-Marginalization, в свою очередь, позволяет модели эффективно учитывать различные порядки обработки этих токенов, избегая ограничений, присущих традиционным подходам, где обработка идет последовательно по растровой сетке. Это значительно улучшает способность модели захватывать сложные структуры и зависимости в изображениях, повышая качество генерируемых результатов и позволяя эффективно моделировать сложные визуальные паттерны.

Модель RandAR-XL демонстрирует передовые результаты в задачах классификации изображений. На датасете ImageNet-Val достигнута точность Top-1 в 90.2%, что на 1.8% превышает показатели DiT-XL. Кроме того, на датасете ImageNet-R RandAR-XL показывает точность Top-1 в 78.3%, опережая DiT-XL на 1.5%. Эти результаты подтверждают превосходство RandAR-XL в задачах распознавания и классификации изображений по сравнению с существующими моделями.

Модель RandAR демонстрирует значительное повышение эффективности генерации изображений, обеспечивая 25-кратное ускорение процесса инференса по сравнению с диффузионными классификаторами. Это достигается за счет отказа от последовательной обработки пикселей, характерной для традиционных подходов, и использования архитектуры, оптимизированной для параллельной генерации токенов. Ускорение инференса позволяет существенно снизить вычислительные затраты и время, необходимое для получения изображения, что делает RandAR привлекательным решением для приложений, требующих высокой скорости обработки, таких как интерактивные системы и обработка данных в реальном времени.

Точность классификатора RandAR выше для центральных токенов изображения, что, вероятно, связано со смещением в ImageNet в сторону центральных объектов, и последовательно возрастает с увеличением значения <span class="katex-eq" data-katex-display="false">KK</span>.
Точность классификатора RandAR выше для центральных токенов изображения, что, вероятно, связано со смещением в ImageNet в сторону центральных объектов, и последовательно возрастает с увеличением значения KK.

За Пределами Пикселей: Значение для Надежного Зрения

Исследования, проведенные с использованием RandAR, демонстрируют, что возможность генерации изображений в произвольном порядке следования токенов существенно снижает зависимость от низкоуровневых текстурных характеристик. Вместо этого, система стимулируется к изучению более абстрактных и основанных на форме представлений. Такой подход позволяет модели концентрироваться на существенных признаках объекта, а не на деталях фона или мелких текстурах, что приводит к формированию более устойчивых и обобщающих знаний об изображении. В результате, модель учится распознавать объекты, опираясь на их форму и структуру, а не на случайные визуальные паттерны, что является ключевым шагом к созданию более интеллектуальных и надежных систем компьютерного зрения.

Исследования показывают, что смещение в сторону распознавания формы, а не текстуры, значительно повышает устойчивость систем компьютерного зрения к различным помехам. В условиях зашумленных изображений или при преднамеренных искажениях, направленных на обман системы (так называемые adversarial attacks), модели, ориентированные на форму объектов, демонстрируют заметно лучшую производительность. Это связано с тем, что форма является более стабильным и надежным признаком, в отличие от текстурных деталей, которые легко могут быть изменены или замаскированы. Такой подход позволяет системам выделять ключевые характеристики объекта, даже когда визуальная информация неполна или искажена, обеспечивая более надежное и точное распознавание в сложных условиях.

Генеративные классификаторы, такие как RandAR, открывают перспективы для создания более надежных и понятных систем компьютерного зрения. В отличие от традиционных подходов, склонных к распознаванию поверхностных закономерностей и текстурных особенностей, RandAR способствует формированию представлений, основанных на более абстрактных и устойчивых характеристиках формы. Это позволяет системам не просто «видеть» пиксели, но и понимать суть изображаемых объектов, что критически важно для работы в сложных условиях, например, при наличии шумов или преднамеренных искажений. В результате, компьютерное зрение выходит за рамки простой идентификации образов, приближаясь к настоящему пониманию визуальной информации, что повышает надежность и позволяет интерпретировать принятые решения.

Порядок обработки токенов существенно влияет на точность классификации изображений в моделях авторегрессии, что демонстрируется различными результатами для одного и того же изображения при использовании разных последовательностей токенов.
Порядок обработки токенов существенно влияет на точность классификации изображений в моделях авторегрессии, что демонстрируется различными результатами для одного и того же изображения при использовании разных последовательностей токенов.

Исследование, представленное в данной работе, подчеркивает важность понимания внутренних закономерностей сложных систем для достижения высокой производительности. Авторегрессионные модели, оптимизированные посредством маргинализации порядка, демонстрируют превосходство над диффузионными моделями в задачах классификации изображений и повышают устойчивость к изменениям в данных. Как отмечал Ян ЛеКюн: «Машинное обучение — это наука о том, как позволить компьютерам учиться без явного программирования». Эта фраза отражает суть подхода, описанного в статье, где система самостоятельно выявляет и использует скрытые зависимости в данных, чтобы достичь выдающихся результатов в классификации и повысить свою надежность перед новыми данными.

Что Дальше?

Представленная работа демонстрирует, что систематическое исследование порядка генерации в авторегрессионных моделях может привести к неожиданным улучшениям в задачах классификации изображений. Однако, следует признать, что кажущееся превосходство над диффузионными моделями требует дальнейшей проверки в условиях намеренных искажений и непредсказуемых изменений в распределении данных. Если закономерность нельзя воспроизвести или объяснить, её не существует — и необходимо помнить об этом, когда речь идет о сложных системах, подобных нейронным сетям.

Очевидным направлением для будущих исследований представляется изучение влияния различных стратегий упорядочивания токенов на устойчивость модели к «враждебным» примерам. Вместо слепого следования современным тенденциям, необходимо углубиться в понимание того, как порядок генерации влияет на представление признаков и, следовательно, на способность модели к обобщению. Простая оптимизация метрик на обучающей выборке — недостаточный критерий для оценки истинной ценности модели.

В конечном счете, задача состоит не в том, чтобы создать модель, которая просто «работает», а в том, чтобы понять принципы, лежащие в основе её работы. Успех в этой области потребует не только технических инноваций, но и философского подхода к исследованию — готовности ставить под сомнение общепринятые догмы и искать новые, нетривиальные решения.


Оригинал статьи: https://arxiv.org/pdf/2603.19122.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-21 06:24