Автор: Денис Аветисян
Исследователи разработали систему, способную воссоздавать увиденное человеком по данным электроэнцефалограммы (ЭЭГ).
![В рамках исследования, система AVDE проходит двухэтапную подготовку: сначала предварительно обученный энкодер ЭЭГ адаптируется с помощью контрастного обучения для более эффективного извлечения визуальной информации из сигналов ЭЭГ, обеспечивая информативную инициализацию для последующей реконструкции изображения, а затем визуальный авторегрессионный трансформер обучается предсказывать последовательность масштабированных изображений <span class="katex-eq" data-katex-display="false"> (R\_{1},R\_{2},R\_{3},\dots,R\_{K}) </span> на основе входной последовательности <span class="katex-eq" data-katex-display="false"> ([s],R\_{1},R\_{2},\dots,R\_{K-1}) </span>, при этом обучение направляется стандартной кросс-энтропийной функцией потерь.](https://arxiv.org/html/2602.22555v1/2602.22555v1/x2.png)
Представлен авторегрессионный фреймворк AVDE для декодирования визуальной информации из сигналов ЭЭГ с использованием контрастного обучения и диффузионных моделей.
Несмотря на растущую популярность декодирования визуальной информации по данным электроэнцефалограммы (ЭЭГ), существующие подходы сталкиваются с трудностями при преодолении разрыва между модальностями ЭЭГ и изображения. В данной работе, посвященной ‘Autoregressive Visual Decoding from EEG Signals’, предложен AVDE — новый, эффективный авторегрессионный фреймворк, использующий контрастное обучение и предсказание по шкале для реконструкции изображений по сигналам ЭЭГ. Эксперименты на двух датасетах продемонстрировали, что AVDE превосходит современные методы в задачах извлечения и реконструкции изображений, при этом используя в 10 раз меньше параметров. Может ли данный подход открыть новые возможности для создания более эффективных и интерпретируемых интерфейсов мозг-компьютер?
Раскодирование зрительной коры: Непреходящая задача
Воссоздание визуального опыта на основе нейронных сигналов остаётся ключевой задачей нейронауки, однако сложность обработки зрительной информации мозгом представляет собой значительное препятствие. Визуальная система — это не просто пассивный регистратор, но и активный интерпретатор, постоянно обрабатывающий и преобразующий поступающие данные. Нейроны коры головного мозга реагируют на мельчайшие детали изображения, такие как цвет, форма, движение и глубина, формируя сложную иерархическую структуру, где каждый уровень отвечает за обработку определённого аспекта зрительной информации. Попытки декодировать эти сигналы и реконструировать исходное изображение сталкиваются с проблемой многомерности и нелинейности нейронных связей, что требует разработки сложных алгоритмов и моделей, способных учитывать все нюансы зрительного восприятия. Именно поэтому, несмотря на значительный прогресс в области нейротехнологий, точное воссоздание визуального опыта, который испытывает человек, остаётся амбициозной и труднодостижимой целью.
Традиционные методы нейровизуализации, такие как функциональная магнитно-резонансная томография (фМРТ), предоставляют ценную информацию о мозговой активности, однако их временное разрешение недостаточно для фиксации стремительных процессов, лежащих в основе зрительного восприятия. Зрительная система обрабатывает информацию с невероятной скоростью, формируя целостное представление об окружающем мире за доли секунды. фМРТ, основанная на измерении изменений кровотока, улавливает лишь косвенные признаки этой активности, а её задержка во времени и относительно низкая частота обновления не позволяют проследить за быстрыми нейронными процессами, необходимыми для точного воспроизведения зрительного опыта. В результате, несмотря на свою широкую распространенность, фМРТ ограничена в способности улавливать динамику зрительного восприятия, что стимулирует поиск альтернативных и более чувствительных методов нейровизуализации.
Современные методы реконструкции изображений из нейронных сигналов, несмотря на значительный прогресс в нейробиологии, всё ещё сталкиваются с серьёзными ограничениями в достижении высокой точности и детализации. Воссоздаваемые визуальные образы зачастую характеризуются размытостью и неполнотой, что связано с трудностями в декодировании сложной активности зрительной коры. Проблема заключается в том, что нейронные отклики на отдельные элементы изображения не всегда однозначно определяют исходный стимул, а алгоритмы реконструкции испытывают трудности с учётом всех нюансов визуального восприятия. В результате, воссозданные изображения могут существенно отличаться от реально наблюдаемого объекта, представляя собой лишь приблизительную и искажённую версию, что ограничивает возможности применения данной технологии для восстановления зрения или создания интерфейсов «мозг-компьютер».

Авторегрессионное декодирование: Новый подход к визуальной реконструкции
Представленный конвейер декодирования визуальной информации из ЭЭГ использует авторегрессивный подход, основанный на принципах последовательного построения сложных представлений из более простых компонентов. Этот метод предполагает, что визуальная реконструкция начинается с генерации грубых, низкоразрешающих признаков, которые затем последовательно уточняются и детализируются на последующих этапах. Каждый этап конвейера использует информацию, полученную на предыдущих этапах, для предсказания и добавления новых деталей к реконструируемому изображению, что позволяет постепенно формировать высококачественное визуальное представление из сырых данных ЭЭГ. Такой подход позволяет эффективно обрабатывать зашумленные данные ЭЭГ и генерировать осмысленные визуальные реконструкции.
Принцип работы декодирования визуальной информации в данной системе соответствует иерархической организации зрительного восприятия у человека. На начальных этапах реконструкции формируются общие, грубые характеристики изображения, определяющие его базовую структуру. Последующие этапы детализируют эти характеристики, последовательно добавляя информацию о более мелких деталях и текстурах. Такой подход позволяет системе прогрессивно строить сложные визуальные представления, начиная с низкоуровневых признаков и постепенно переходя к более абстрактным и детализированным элементам, что соответствует принципам обработки визуальной информации в зрительной коре головного мозга.
В основе нашего конвейера лежит LaBraM — предварительно обученная модель кодирования ЭЭГ, предназначенная для извлечения информативных признаков из зашумленных сигналов ЭЭГ. LaBraM позволяет преобразовать необработанные данные ЭЭГ в компактное, но содержательное представление, которое служит основой для последующей реконструкции визуальных стимулов. Предварительное обучение LaBraM на большом объеме данных ЭЭГ позволяет модели эффективно отфильтровывать шум и выделять паттерны, связанные с визуальной обработкой, что существенно повышает качество и точность реконструкции по сравнению с использованием необработанных данных ЭЭГ напрямую.
Ключевым элементом является предсказание следующего масштаба (“Next-Scale Prediction”), которое позволяет последовательно реконструировать визуальные представления, увеличивая степень детализации. В рамках данного подхода используется комбинация VQ-VAE и Transformer моделей. VQ-VAE служит для дискретизации визуальных признаков, создавая компактное представление изображения. Transformer, в свою очередь, обучен предсказывать дискретные токены, соответствующие следующим уровням детализации, основываясь на предыдущих предсказаниях и закодированных EEG сигналах. Таким образом, модель итеративно генерирует все более детализированные визуальные представления, начиная с низкоразрешального изображения и последовательно добавляя детали.

Валидация и оценка на стандартных наборах данных
Для оценки обобщающей способности разработанного конвейера проводилось тестирование на трех различных наборах данных: THINGS-EEG, THINGS-MEG и EEG-ImageNet. Набор данных THINGS-EEG содержит данные электроэнцефалографии (ЭЭГ), полученные в процессе просмотра изображений, THINGS-MEG — соответствующие данные магнитоэнцефалографии (МЭГ), а EEG-ImageNet — данные ЭЭГ, связанные с изображениями из набора ImageNet. Использование этих трех наборов данных позволило оценить устойчивость и применимость метода к различным типам нейрофизиологических данных и задачам реконструкции/извлечения изображений, подтверждая его общую эффективность.
На датасете THINGS-EEG продемонстрирована высокая точность выполнения задач реконструкции и поиска изображений. Показатель Top-1 Retrieval Accuracy составил 0.300, что означает, что в 30% случаев наиболее релевантное изображение было извлечено первым. Top-5 Retrieval Accuracy достиг значения 0.582, указывая на то, что релевантное изображение находилось среди пяти первых предложенных вариантов в 58.2% случаев. Данные метрики отражают эффективность предложенного подхода в установлении соответствия между нейронными сигналами и визуальными стимулами.
При оценке нашей системы на наборе данных THINGS-EEG, с учётом результатов по всем испытуемым, была достигнута точность извлечения первого релевантного изображения (Top-1 Retrieval Accuracy) на уровне 0.143. При этом, точность извлечения в топ-5 релевантных изображений (Top-5 Retrieval Accuracy) составила 0.329. Данные показатели отражают обобщающую способность модели в задачах поиска изображений по данным ЭЭГ, усреднённую по всем участникам эксперимента.
Сбор данных осуществлялся с использованием парадигмы RSVP (Rapid Serial Visual Presentation), что позволило создать контролируемую среду для регистрации нейронных ответов на зрительные стимулы. В рамках данной парадигмы участникам предъявлялись последовательности изображений с высокой скоростью (обычно несколько изображений в секунду), что позволило минимизировать влияние посторонних факторов и обеспечить точную синхронизацию между стимулом и нейронным откликом. Контролируемая среда, обеспечиваемая RSVP, критически важна для получения надежных и воспроизводимых данных, необходимых для обучения и оценки моделей, реконструирующих или извлекающих изображения на основе данных ЭЭГ и МЭГ.
Для тонкой настройки LaBraM использовалось обучение с контрастом, которое позволило выровнять представления, полученные из данных ЭЭГ и изображений. Этот метод предполагает минимизацию расстояния между представлениями ЭЭГ и соответствующих им изображений в пространстве признаков, одновременно максимизируя расстояние между несовпадающими парами. В результате, была достигнута максимальная точность реконструкции изображений по данным ЭЭГ, что свидетельствует об эффективном обучении модели и ее способности к извлечению релевантных признаков из нейронных сигналов.
При оценке качества реконструкции изображений на наборе данных THINGS-EEG (для субъекта 08) разработанный метод продемонстрировал наивысшие показатели по трем метрикам: PixCorr, SSIM и SwAV. PixCorr измеряет корреляцию пикселей между реконструктированным и исходным изображениями, SSIM (Structural Similarity Index Measure) оценивает структурное сходство, а SwAV (Swapping Assignments for better representation learning) — качество представлений, полученных в процессе обучения. Превышение показателей по всем трем метрикам указывает на высокую точность и структурную достоверность реконструируемых изображений, полученных с использованием предложенного подхода.
В ходе экспериментов было достигнуто снижение количества параметров модели на 90% по сравнению с методами, основанными на диффузии. Данное снижение свидетельствует о значительном повышении вычислительной эффективности предложенного подхода, что позволяет снизить требования к аппаратным ресурсам и времени вычислений без существенной потери качества реконструкции и извлечения изображений. Это особенно важно для практического применения модели в условиях ограниченных ресурсов или при необходимости обработки больших объемов данных.

Перспективы развития: Расширение области нейродекодирования
Несмотря на то, что текущее исследование сосредоточено на авторегрессионных моделях для реконструкции визуальных образов по нейронным сигналам, альтернативные генеративные подходы, в частности диффузионные модели, демонстрируют значительный потенциал для дальнейшего повышения качества восстановленных изображений. Диффузионные модели, в отличие от авторегрессионных, способны генерировать более детализированные и реалистичные изображения за счет итеративного процесса удаления шума, что может привести к более точному восстановлению исходной визуальной информации. Предварительные исследования показывают, что интеграция диффузионных моделей в существующую архитектуру может существенно улучшить разрешение и правдоподобность реконструируемых изображений, открывая новые возможности для понимания механизмов зрительного восприятия и разработки передовых нейроинтерфейсов.
Исследования демонстрируют потенциал интеграции данной технологии декодирования нейронных сигналов с интерфейсами мозг-компьютер для восстановления зрительного восприятия у людей с нарушениями зрения. Предполагается, что путем преобразования активности мозга, вызванной визуальными стимулами или даже внутренними образами, в реконструируемые изображения, можно создать искусственное зрение. Такой подход подразумевает разработку нейропротезов, способных обходить поврежденные участки зрительной системы и напрямую стимулировать зрительную кору, позволяя пациентам вновь воспринимать окружающий мир. Успешная реализация подобной технологии открывает перспективные возможности для улучшения качества жизни людей с полной или частичной слепотой, предоставляя им новый способ взаимодействия с визуальной информацией.
Предложенная схема декодирования визуальной информации не ограничивается воссозданием простых изображений. Её архитектура открывает перспективы для анализа и реконструкции сложных визуальных сцен, включающих множество объектов и взаимосвязей между ними. Более того, принципы, лежащие в основе данной разработки, позволяют перейти от декодирования внешних стимулов к интерпретации внутренней визуальной репрезентации — то есть, воссозданию изображений, формирующихся в сознании человека, даже при отсутствии непосредственного внешнего воздействия. Это открывает уникальные возможности для изучения процессов воображения, сновидений и других форм внутреннего визуального опыта, что представляет значительный интерес для нейронауки и когнитивной психологии.
Точное восстановление зрительных переживаний на основе нейронных сигналов открывает принципиально новые возможности для изучения сознания и природы восприятия. Воссоздание визуальных образов непосредственно из активности мозга позволяет перейти от субъективных отчетов к объективной регистрации и анализу переживаемого опыта. Это, в свою очередь, предоставляет уникальный инструмент для исследования нейронных коррелятов сознания — какие именно паттерны активности мозга соответствуют определенным аспектам визуального восприятия, таким как цвет, форма или движение. Понимание этих связей может пролить свет на фундаментальные вопросы о том, как мозг создает субъективную реальность и как формируется наше внутреннее «я». Более того, возможность декодировать внутренние зрительные образы — те, что возникают в отсутствие внешних стимулов — открывает перспективы для изучения сновидений, воображения и других форм ментальной активности, приближая науку к пониманию самых загадочных аспектов человеческого разума.

Исследование, представленное в данной работе, демонстрирует стремление к созданию систем, способных извлекать информацию из хаоса нейронной активности. Авторегрессионный подход, предложенный авторами для декодирования визуальных сигналов из ЭЭГ, подобен попытке вырастить сад из семян в непредсказуемой среде. Данный метод, фокусируясь на последовательном построении изображения, избегает прямого моделирования всей сложности сигнала, что соответствует принципу минимизации рисков при проектировании. Как однажды заметил Клод Шеннон: «Теория связи — это просто способ организовать хаос». В данном контексте, AVDE является не просто алгоритмом, а экосистемой, способной приспосабливаться к изменчивости ЭЭГ-сигналов и устойчиво реконструировать визуальную информацию.
Что впереди?
Представленная работа, подобно аккуратно выращенному ростку, демонстрирует возможности декодирования визуальной информации из сигналов ЭЭГ. Однако, не стоит обольщаться иллюзией полного понимания. Система — это не машина, это сад; и даже самая тщательно спроектированная архитектура неизбежно столкнётся с проявлениями энтропии. Улучшение эффективности, достигнутое благодаря авторегрессионному подходу, — лишь временная передышка перед лицом нерешенных задач.
Будущие исследования должны сместить фокус с простой реконструкции изображения на понимание процессов, лежащих в основе его формирования в сознании. Контрастное обучение и диффузионные модели — лишь инструменты, а истинная цель — не создать «фотографию» из мозговых волн, а понять, как мозг строит внутреннюю модель реальности. Устойчивость системы не в изоляции компонентов, а в их способности прощать ошибки друг друга; необходимо развивать методы, позволяющие декодировать информацию даже при наличии шума и артефактов.
И, пожалуй, самое важное — осознать, что декодирование мозговой активности — это не просто технологическая задача, но и философский вызов. Каждый архитектурный выбор — это пророчество о будущем сбое. Истина не в совершенстве алгоритма, а в признании его ограниченности.
Оригинал статьи: https://arxiv.org/pdf/2602.22555.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- БИТКОИН ПРОГНОЗ. BTC криптовалюта
- ПРОГНОЗ ДОЛЛАРА К ШЕКЕЛЮ
- MYX ПРОГНОЗ. MYX криптовалюта
- ЭФИРИУМ ПРОГНОЗ. ETH криптовалюта
- SOL ПРОГНОЗ. SOL криптовалюта
- РИППЛ ПРОГНОЗ. XRP криптовалюта
- SUI ПРОГНОЗ. SUI криптовалюта
- ДОГЕКОИН ПРОГНОЗ. DOGE криптовалюта
- SAROS ПРОГНОЗ. SAROS криптовалюта
- OM ПРОГНОЗ. OM криптовалюта
2026-03-01 04:48