За горизонтом Mamba: Новый подход к обнаружению объектов на дорогах

Автор: Денис Аветисян


Исследователи предлагают MDDCNet — инновационную архитектуру, объединяющую возможности State Space Models и деформируемых расширенных сверток для повышения точности обнаружения объектов разного масштаба в сложных дорожных условиях.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал
Модуль синергии контекстно-пространственного-канального внимания, состоящий из трех взаимодополняющих ветвей внимания, использует механизм агрегации внимания для всестороннего усиления дискриминационной способности признаков, что значительно улучшает многомасштабное слияние и взаимодействие признаков.
Модуль синергии контекстно-пространственного-канального внимания, состоящий из трех взаимодополняющих ветвей внимания, использует механизм агрегации внимания для всестороннего усиления дискриминационной способности признаков, что значительно улучшает многомасштабное слияние и взаимодействие признаков.

Представлена MDDCNet — сеть обнаружения объектов, использующая Mamba и деформируемые расширенные свертки для улучшения обнаружения объектов различного масштаба в дорожных сценариях.

Обнаружение объектов различного масштаба в сложных дорожных условиях представляет собой сложную задачу для современных систем компьютерного зрения. В данной работе, озаглавленной ‘Beyond Mamba: Enhancing State-space Models with Deformable Dilated Convolutions for Multi-scale Traffic Object Detection’, предложена новая архитектура MDDCNet, сочетающая в себе преимущества моделей на основе состояний, таких как Mamba, и деформируемых свёрток для эффективного анализа многомасштабных объектов. Предложенная сеть обеспечивает иерархическое представление признаков, от локальных деталей до глобальной семантики, что позволяет значительно повысить точность обнаружения. Не откроет ли это новые горизонты для разработки интеллектуальных систем помощи водителю и автономного транспорта?


Трудности понимания дорожной ситуации в реальном времени

Точное и оперативное распознавание объектов является фундаментальным требованием для систем автономного вождения и интеллектуального управления транспортными потоками. От способности корректно идентифицировать пешеходов, транспортные средства и дорожные знаки в режиме реального времени напрямую зависит безопасность и эффективность этих систем. Без надежного обнаружения объектов, автомобиль не сможет адекватно реагировать на меняющуюся дорожную обстановку, а системы управления трафиком не смогут оптимизировать потоки и предотвращать заторы. Повышение точности и скорости распознавания объектов — ключевая задача, определяющая будущее автономного транспорта и интеллектуальных транспортных систем, позволяющая существенно снизить количество дорожно-транспортных происшествий и повысить общую пропускную способность дорожной сети.

Традиционные свёрточные нейронные сети (CNN), несмотря на свою эффективность в задачах распознавания изображений, часто испытывают трудности при анализе сложных дорожных сцен и объектов разного масштаба. Проблема заключается в том, что для обработки большого количества информации и выделения признаков на разных уровнях детализации требуется значительное количество вычислительных ресурсов. В условиях реального времени, когда необходимо мгновенно реагировать на изменения обстановки, такие сети могут оказаться недостаточно быстрыми и точными. Особенно остро эта проблема проявляется при обнаружении небольших объектов на фоне загроможденного фона или при анализе сцен с большим количеством перекрывающихся объектов, что приводит к снижению производительности и увеличению вероятности ошибок в системах автономного вождения и управления транспортными потоками.

Одной из ключевых проблем в области понимания дорожного движения в реальном времени является одновременное извлечение как локальных деталей, так и глобального контекста изображения. Существующие алгоритмы часто сталкиваются с трудностями при обработке сложных сцен, где объекты различаются по размеру и положению. Для эффективной работы систем автономного вождения и управления трафиком необходимо, чтобы модель могла не только распознавать отдельные объекты, такие как автомобили и пешеходы, но и понимать их взаимосвязи и предсказывать их поведение. Достижение этого требует разработки вычислительно эффективных архитектур, способных обрабатывать большие объемы данных и извлекать релевантную информацию без значительных задержек. Поиск баланса между точностью и скоростью обработки данных остается актуальной задачей для исследователей в этой области.

Статистика нашего набора данных RTOD показывает распределение объектов дорожного движения по категориям (a) и их масштабам (b).
Статистика нашего набора данных RTOD показывает распределение объектов дорожного движения по категориям (a) и их масштабам (b).

MDDCNet: Гибридная архитектура для мультимасштабного обнаружения

MDDCNet представляет собой гибридную архитектуру, объединяющую сверточные нейронные сети (CNN) и блоки Mamba для эффективного захвата многомасштабных признаков. В основе конструкции лежит идея совместного использования локальной детализации, обеспечиваемой CNN, и способности Mamba моделировать долгосрочные зависимости в данных. Такой подход позволяет сети адаптироваться к объектам различных размеров и форм, улавливая как локальные текстурные особенности, так и глобальный контекст изображения. Комбинация этих двух типов блоков обеспечивает более полное и репрезентативное представление входных данных по сравнению с использованием только CNN или только Mamba.

Архитектура MDDCNet использует деформируемые расширенные свёртки (deformable dilated convolutions) внутри блоков MSDDC для адаптивного захвата объектов различных размеров и форм. В отличие от стандартных свёрток, деформируемые свёртки динамически смещают точки выборки, позволяя им фокусироваться на наиболее релевантных областях объекта, игнорируя фон или нерелевантные детали. Расширение (dilation) увеличивает рецептивное поле свёртки, что позволяет ей учитывать более широкий контекст. Комбинация этих двух техник в блоках MSDDC позволяет сети эффективно обнаруживать объекты разных масштабов и с различной геометрией, повышая точность обнаружения, особенно для объектов сложной формы или частично закрытых объектов.

Иерархическая основа MDDCNet предназначена для извлечения признаков на различных уровнях абстракции, начиная с низкоуровневых деталей и заканчивая высокоуровневыми семантическими представлениями. Для улучшения объединения признаков используется сеть пирамиды признаков (FPN) с механизмом внимания. FPN обеспечивает обработку признаков, полученных с разных уровней иерархии, позволяя сети эффективно обнаруживать объекты разных размеров. Механизм внимания позволяет динамически взвешивать вклад каждого признака, выделяя наиболее релевантные признаки для текущей задачи и подавляя менее значимые, что повышает точность обнаружения и снижает вычислительную сложность.

Интеграция блоков Mamba в архитектуру MDDCNet позволяет использовать эффективное моделирование состояний (state space modeling) для моделирования долгосрочных зависимостей в данных. В отличие от традиционных рекуррентных или сверточных сетей, Mamba использует селективный механизм сканирования, что позволяет обрабатывать длинные последовательности с меньшими вычислительными затратами и более высокой эффективностью. Это особенно важно для задач обнаружения объектов, где контекст на больших расстояниях может быть критически важным для точной идентификации и локализации. Использование Mamba способствует улучшению понимания контекста изображения и повышению точности обнаружения объектов различного масштаба.

Предложенная MDDCNet использует гибридную основу (a), сеть агрегации внимания с пирамидальной структурой (A2A<span class="katex-eq" data-katex-display="false">^{2}</span>FPN) (b) и модуль обнаружения (c) для эффективного анализа данных.
Предложенная MDDCNet использует гибридную основу (a), сеть агрегации внимания с пирамидальной структурой (A2A^{2}FPN) (b) и модуль обнаружения (c) для эффективного анализа данных.

Подтверждение эффективности на стандартных и сложных наборах данных

Сеть MDDCNet прошла оценку на стандартных наборах данных KITTI и RTOD, продемонстрировав передовые результаты в обнаружении объектов. На KITTI был достигнут показатель mAP@50 в 94.1%, а на RTOD — 85.3%. Данные результаты свидетельствуют о превосходстве MDDCNet над существующими методами в задачах компьютерного зрения, применяемых в контексте анализа дорожного движения и автономного вождения. Достигнутые показатели mAP@50 подтверждают эффективность предложенной архитектуры в задачах точного и надежного обнаружения объектов в сложных условиях.

Использование деформируемых сверток и архитектуры Mamba способствует повышению точности обнаружения объектов различных масштабов и в сложных сценах. Деформируемые свертки позволяют сети адаптироваться к геометрическим изменениям объектов, что особенно важно для обнаружения объектов в перспективе или при частичной видимости. Архитектура Mamba, основанная на моделях пространства состояний, эффективно обрабатывает долгосрочные зависимости в данных, что позволяет сети лучше понимать контекст сцены и различать объекты в сложных условиях. Комбинация этих двух подходов обеспечивает более надежное и точное обнаружение объектов в различных сценариях дорожного движения.

Количественный анализ показал существенное улучшение показателей точности и полноты обнаружения объектов. Внедрение модуля MSDDC привело к увеличению метрики mAP@50 до 92.1%. Дальнейшая оптимизация с использованием CE-FFN модуля позволила достичь значения 92.3%, а интеграция модуля CSCA обеспечила максимальный результат в 92.5%. Данные результаты демонстрируют вклад каждого модуля в повышение общей эффективности системы обнаружения объектов в сложных дорожных условиях.

Интеграция моделей пространства состояний посредством Mamba-блоков позволяет эффективно обрабатывать долгосрочные зависимости в сценах дорожного движения. В MDDCNet-T это реализовано с балансом между производительностью и вычислительными затратами, что подтверждается показателями в 6.6 миллиона операций с плавающей точкой (FLOPs) и частотой 12.9 кадров в секунду (FPS). Использование Mamba-блоков позволяет модели улавливать контекст на больших расстояниях, что критически важно для понимания сложных дорожных ситуаций, при этом сохраняя приемлемую скорость обработки данных.

На датасете KITTI, MDDCNet превосходит YOLOv13n, обеспечивая более точное обнаружение объектов и меньшее количество пропущенных целей.
На датасете KITTI, MDDCNet превосходит YOLOv13n, обеспечивая более точное обнаружение объектов и меньшее количество пропущенных целей.

Перспективы развития и влияние на интеллектуальные системы

Архитектура MDDCNet демонстрирует значительный потенциал не только в обнаружении объектов на дорогах, но и в решении более широкого спектра задач компьютерного зрения. Благодаря своей способности эффективно обрабатывать последовательности изображений и учитывать временные зависимости, она может быть успешно применена для обнаружения пешеходов, анализа поведения участников дорожного движения и, в конечном итоге, для комплексного понимания сцены. Использование MDDCNet в задачах, требующих анализа динамических сцен, открывает возможности для создания более интеллектуальных и адаптивных систем, способных к более глубокому пониманию визуальной информации и принятию обоснованных решений в различных ситуациях. Подобный подход может значительно повысить надежность и эффективность систем автономного вождения и интеллектуального транспорта.

Сочетание сверточных нейронных сетей (CNN) и моделей пространства состояний открывает перспективы для создания более эффективных и устойчивых систем искусственного интеллекта. Традиционные CNN отлично справляются с извлечением признаков из отдельных кадров, однако не всегда эффективно обрабатывают временные зависимости в потоках данных. Модели пространства состояний, напротив, способны эффективно моделировать динамику во времени, сохраняя информацию о предыдущих состояниях системы. Интеграция этих двух подходов позволяет создавать системы, которые не только точно распознают объекты, но и предсказывают их будущее поведение, что особенно важно при обработке сложных потоков данных в реальном времени, например, в системах автономного вождения или мониторинга. Такой симбиоз позволяет снизить вычислительную нагрузку и повысить надежность работы в условиях зашумленных или неполных данных.

Дальнейшие исследования направлены на интеграцию механизмов внимания, учитывающих контекст, пространственное расположение и каналы обработки информации. Такая комбинация позволит значительно улучшить представление признаков, выделяемых из изображений, и, как следствие, повысить точность обнаружения объектов. Внедрение подобных механизмов внимания позволит моделям более эффективно фокусироваться на наиболее релевантных частях изображения, игнорируя шум и отвлекающие факторы. Ожидается, что это приведет к созданию более надежных и устойчивых систем компьютерного зрения, способных эффективно работать в сложных условиях реального мира, например, при плохой освещенности или частичной видимости объектов. Улучшенное представление признаков также может способствовать более эффективному обучению моделей и снижению потребности в больших объемах размеченных данных.

Представленные разработки вносят значительный вклад в создание более безопасных и надежных автономных транспортных средств и интеллектуальных транспортных систем. Повышение точности обнаружения объектов, особенно в сложных дорожных условиях, напрямую влияет на способность автомобиля адекватно реагировать на изменяющуюся обстановку и предотвращать аварийные ситуации. Улучшенные алгоритмы обработки данных, такие как MDDCNet, позволяют системам автономного вождения более эффективно интерпретировать визуальную информацию, что критически важно для принятия обоснованных решений в режиме реального времени. В конечном итоге, эти достижения приближают будущее, в котором транспорт становится не только удобнее, но и значительно безопаснее для всех участников дорожного движения.

На датасете RTOD разработанная MDDCNet демонстрирует превосходство над YOLOv13n, обеспечивая более точное обнаружение объектов с меньшим количеством пропущенных целей и ложных срабатываний.
На датасете RTOD разработанная MDDCNet демонстрирует превосходство над YOLOv13n, обеспечивая более точное обнаружение объектов с меньшим количеством пропущенных целей и ложных срабатываний.

Исследование представляет MDDCNet — попытку примирить теоретическую элегантность state space models, таких как Mamba, с суровой реальностью обнаружения объектов в трафике. Авторы, по сути, добавляют к Mamba еще один слой усложнения в виде deformable dilated convolutions, что, конечно, не является прорывом, но демонстрирует прагматичный подход. Как заметил Ян Лекун: «Простота — это миф. Реальная сложность — это когда система работает». В данном случае, добавление сложности позволяет MDDCNet лучше справляться с обнаружением объектов разных масштабов, что в конечном итоге определяет практическую ценность архитектуры. Идея Feature Pyramid Network, хоть и не нова, в сочетании с MDDCNet даёт предсказуемо работающую систему, а это всегда ценнее красивой теории.

Куда дальше?

Предложенная MDDCNet, несомненно, очередная попытка обуздать сложность обнаружения объектов в трафике. Сочетание state space моделей и деформируемых свёрток — элегантное решение, пока графики не начнут демонстрировать привычное падение точности на реальных данных. Впрочем, это неизбежно. Все эти «бесконечные пирамиды признаков» и «адаптивные рецептивные поля» — лишь переиновка идей, которые пылились на полках в 2015-м.

Основной вопрос, как обычно, не в архитектуре, а в данных. Потребуется колоссальный объем размеченных данных, чтобы MDDCNet действительно превзошла существующие решения, и, вероятно, это лишь отсрочит появление новых проблем. На горизонте маячат вопросы устойчивости к adversarial атакам и обобщающей способности в условиях, кардинально отличающихся от тренировочных. Если тесты зелёные — значит, они ничего не проверяют.

Будущие исследования, скорее всего, будут направлены на оптимизацию вычислительной сложности этих всё более раздутых моделей и поиск способов интеграции с другими сенсорами. Но в конечном итоге, каждая «революционная» архитектура превратится в техдолг, требующий постоянного обслуживания и переработки. Кажется, так всегда и было.


Оригинал статьи: https://arxiv.org/pdf/2604.08038.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-11 13:29