Восстановление изображений по мозговым волнам: новый подход

Автор: Денис Аветисян

Исследователи разработали систему, способную воссоздавать увиденное человеком по данным электроэнцефалограммы (ЭЭГ).

В рамках исследования, система AVDE проходит двухэтапную подготовку: сначала предварительно обученный энкодер ЭЭГ адаптируется с помощью контрастного обучения для более эффективного извлечения визуальной информации из сигналов ЭЭГ, обеспечивая информативную инициализацию для последующей реконструкции изображения, а затем визуальный авторегрессионный трансформер обучается предсказывать последовательность масштабированных изображений <span class="katex-eq" data-katex-display="false"> (R\_{1},R\_{2},R\_{3},\dots,R\_{K}) </span> на основе входной последовательности <span class="katex-eq" data-katex-display="false"> ([s],R\_{1},R\_{2},\dots,R\_{K-1}) </span>, при этом обучение направляется стандартной кросс-энтропийной функцией потерь. — В рамках исследования, система AVDE проходит двухэтапную подготовку: сначала предварительно обученный энкодер ЭЭГ адаптируется с помощью контрастного обучения для более эффективного извлечения визуальной информации из сигналов ЭЭГ, обеспечивая информативную инициализацию для последующей реконструкции изображения, а затем визуальный авторегрессионный трансформер обучается предсказывать последовательность масштабированных изображений $(R\_{1},R\_{2},R\_{3},\dots,R\_{K})$ на основе входной последовательности $([s],R\_{1},R\_{2},\dots,R\_{K-1})$ , при этом обучение направляется стандартной кросс-энтропийной функцией потерь.

Представлен авторегрессионный фреймворк AVDE для декодирования визуальной информации из сигналов ЭЭГ с использованием контрастного обучения и диффузионных моделей.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Несмотря на растущую популярность декодирования визуальной информации по данным электроэнцефалограммы (ЭЭГ), существующие подходы сталкиваются с трудностями при преодолении разрыва между модальностями ЭЭГ и изображения. В данной работе, посвященной ‘Autoregressive Visual Decoding from EEG Signals’, предложен AVDE — новый, эффективный авторегрессионный фреймворк, использующий контрастное обучение и предсказание по шкале для реконструкции изображений по сигналам ЭЭГ. Эксперименты на двух датасетах продемонстрировали, что AVDE превосходит современные методы в задачах извлечения и реконструкции изображений, при этом используя в 10 раз меньше параметров. Может ли данный подход открыть новые возможности для создания более эффективных и интерпретируемых интерфейсов мозг-компьютер?

Раскодирование зрительной коры: Непреходящая задача

Воссоздание визуального опыта на основе нейронных сигналов остаётся ключевой задачей нейронауки, однако сложность обработки зрительной информации мозгом представляет собой значительное препятствие. Визуальная система — это не просто пассивный регистратор, но и активный интерпретатор, постоянно обрабатывающий и преобразующий поступающие данные. Нейроны коры головного мозга реагируют на мельчайшие детали изображения, такие как цвет, форма, движение и глубина, формируя сложную иерархическую структуру, где каждый уровень отвечает за обработку определённого аспекта зрительной информации. Попытки декодировать эти сигналы и реконструировать исходное изображение сталкиваются с проблемой многомерности и нелинейности нейронных связей, что требует разработки сложных алгоритмов и моделей, способных учитывать все нюансы зрительного восприятия. Именно поэтому, несмотря на значительный прогресс в области нейротехнологий, точное воссоздание визуального опыта, который испытывает человек, остаётся амбициозной и труднодостижимой целью.

Традиционные методы нейровизуализации, такие как функциональная магнитно-резонансная томография (фМРТ), предоставляют ценную информацию о мозговой активности, однако их временное разрешение недостаточно для фиксации стремительных процессов, лежащих в основе зрительного восприятия. Зрительная система обрабатывает информацию с невероятной скоростью, формируя целостное представление об окружающем мире за доли секунды. фМРТ, основанная на измерении изменений кровотока, улавливает лишь косвенные признаки этой активности, а её задержка во времени и относительно низкая частота обновления не позволяют проследить за быстрыми нейронными процессами, необходимыми для точного воспроизведения зрительного опыта. В результате, несмотря на свою широкую распространенность, фМРТ ограничена в способности улавливать динамику зрительного восприятия, что стимулирует поиск альтернативных и более чувствительных методов нейровизуализации.

Современные методы реконструкции изображений из нейронных сигналов, несмотря на значительный прогресс в нейробиологии, всё ещё сталкиваются с серьёзными ограничениями в достижении высокой точности и детализации. Воссоздаваемые визуальные образы зачастую характеризуются размытостью и неполнотой, что связано с трудностями в декодировании сложной активности зрительной коры. Проблема заключается в том, что нейронные отклики на отдельные элементы изображения не всегда однозначно определяют исходный стимул, а алгоритмы реконструкции испытывают трудности с учётом всех нюансов визуального восприятия. В результате, воссозданные изображения могут существенно отличаться от реально наблюдаемого объекта, представляя собой лишь приблизительную и искажённую версию, что ограничивает возможности применения данной технологии для восстановления зрения или создания интерфейсов «мозг-компьютер».

Результаты визуальной реконструкции для субъекта-08 демонстрируют, что предложенный метод позволяет более точно восстанавливать мелкие детали изображения, обеспечивая повышенную реалистичность по сравнению с альтернативными подходами.

Авторегрессионное декодирование: Новый подход к визуальной реконструкции

Представленный конвейер декодирования визуальной информации из ЭЭГ использует авторегрессивный подход, основанный на принципах последовательного построения сложных представлений из более простых компонентов. Этот метод предполагает, что визуальная реконструкция начинается с генерации грубых, низкоразрешающих признаков, которые затем последовательно уточняются и детализируются на последующих этапах. Каждый этап конвейера использует информацию, полученную на предыдущих этапах, для предсказания и добавления новых деталей к реконструируемому изображению, что позволяет постепенно формировать высококачественное визуальное представление из сырых данных ЭЭГ. Такой подход позволяет эффективно обрабатывать зашумленные данные ЭЭГ и генерировать осмысленные визуальные реконструкции.

Принцип работы декодирования визуальной информации в данной системе соответствует иерархической организации зрительного восприятия у человека. На начальных этапах реконструкции формируются общие, грубые характеристики изображения, определяющие его базовую структуру. Последующие этапы детализируют эти характеристики, последовательно добавляя информацию о более мелких деталях и текстурах. Такой подход позволяет системе прогрессивно строить сложные визуальные представления, начиная с низкоуровневых признаков и постепенно переходя к более абстрактным и детализированным элементам, что соответствует принципам обработки визуальной информации в зрительной коре головного мозга.

В основе нашего конвейера лежит LaBraM — предварительно обученная модель кодирования ЭЭГ, предназначенная для извлечения информативных признаков из зашумленных сигналов ЭЭГ. LaBraM позволяет преобразовать необработанные данные ЭЭГ в компактное, но содержательное представление, которое служит основой для последующей реконструкции визуальных стимулов. Предварительное обучение LaBraM на большом объеме данных ЭЭГ позволяет модели эффективно отфильтровывать шум и выделять паттерны, связанные с визуальной обработкой, что существенно повышает качество и точность реконструкции по сравнению с использованием необработанных данных ЭЭГ напрямую.

Ключевым элементом является предсказание следующего масштаба (“Next-Scale Prediction”), которое позволяет последовательно реконструировать визуальные представления, увеличивая степень детализации. В рамках данного подхода используется комбинация VQ-VAE и Transformer моделей. VQ-VAE служит для дискретизации визуальных признаков, создавая компактное представление изображения. Transformer, в свою очередь, обучен предсказывать дискретные токены, соответствующие следующим уровням детализации, основываясь на предыдущих предсказаниях и закодированных EEG сигналах. Таким образом, модель итеративно генерирует все более детализированные визуальные представления, начиная с низкоразрешального изображения и последовательно добавляя детали.

Алгоритм AVDE восстанавливает изображения последовательно по 10 шкалам, имитируя иерархическую обработку визуальной информации в коре головного мозга, подобно функционированию зрительных областей V1, V2/V4 и IT.

Валидация и оценка на стандартных наборах данных

Для оценки обобщающей способности разработанного конвейера проводилось тестирование на трех различных наборах данных: THINGS-EEG, THINGS-MEG и EEG-ImageNet. Набор данных THINGS-EEG содержит данные электроэнцефалографии (ЭЭГ), полученные в процессе просмотра изображений, THINGS-MEG — соответствующие данные магнитоэнцефалографии (МЭГ), а EEG-ImageNet — данные ЭЭГ, связанные с изображениями из набора ImageNet. Использование этих трех наборов данных позволило оценить устойчивость и применимость метода к различным типам нейрофизиологических данных и задачам реконструкции/извлечения изображений, подтверждая его общую эффективность.

На датасете THINGS-EEG продемонстрирована высокая точность выполнения задач реконструкции и поиска изображений. Показатель Top-1 Retrieval Accuracy составил 0.300, что означает, что в 30% случаев наиболее релевантное изображение было извлечено первым. Top-5 Retrieval Accuracy достиг значения 0.582, указывая на то, что релевантное изображение находилось среди пяти первых предложенных вариантов в 58.2% случаев. Данные метрики отражают эффективность предложенного подхода в установлении соответствия между нейронными сигналами и визуальными стимулами.

При оценке нашей системы на наборе данных THINGS-EEG, с учётом результатов по всем испытуемым, была достигнута точность извлечения первого релевантного изображения (Top-1 Retrieval Accuracy) на уровне 0.143. При этом, точность извлечения в топ-5 релевантных изображений (Top-5 Retrieval Accuracy) составила 0.329. Данные показатели отражают обобщающую способность модели в задачах поиска изображений по данным ЭЭГ, усреднённую по всем участникам эксперимента.

Сбор данных осуществлялся с использованием парадигмы RSVP (Rapid Serial Visual Presentation), что позволило создать контролируемую среду для регистрации нейронных ответов на зрительные стимулы. В рамках данной парадигмы участникам предъявлялись последовательности изображений с высокой скоростью (обычно несколько изображений в секунду), что позволило минимизировать влияние посторонних факторов и обеспечить точную синхронизацию между стимулом и нейронным откликом. Контролируемая среда, обеспечиваемая RSVP, критически важна для получения надежных и воспроизводимых данных, необходимых для обучения и оценки моделей, реконструирующих или извлекающих изображения на основе данных ЭЭГ и МЭГ.

Для тонкой настройки LaBraM использовалось обучение с контрастом, которое позволило выровнять представления, полученные из данных ЭЭГ и изображений. Этот метод предполагает минимизацию расстояния между представлениями ЭЭГ и соответствующих им изображений в пространстве признаков, одновременно максимизируя расстояние между несовпадающими парами. В результате, была достигнута максимальная точность реконструкции изображений по данным ЭЭГ, что свидетельствует об эффективном обучении модели и ее способности к извлечению релевантных признаков из нейронных сигналов.

При оценке качества реконструкции изображений на наборе данных THINGS-EEG (для субъекта 08) разработанный метод продемонстрировал наивысшие показатели по трем метрикам: PixCorr, SSIM и SwAV. PixCorr измеряет корреляцию пикселей между реконструктированным и исходным изображениями, SSIM (Structural Similarity Index Measure) оценивает структурное сходство, а SwAV (Swapping Assignments for better representation learning) — качество представлений, полученных в процессе обучения. Превышение показателей по всем трем метрикам указывает на высокую точность и структурную достоверность реконструируемых изображений, полученных с использованием предложенного подхода.

В ходе экспериментов было достигнуто снижение количества параметров модели на 90% по сравнению с методами, основанными на диффузии. Данное снижение свидетельствует о значительном повышении вычислительной эффективности предложенного подхода, что позволяет снизить требования к аппаратным ресурсам и времени вычислений без существенной потери качества реконструкции и извлечения изображений. Это особенно важно для практического применения модели в условиях ограниченных ресурсов или при необходимости обработки больших объемов данных.

Несмотря на гибкость, традиционные подходы к визуальной декодировке ЭЭГ, такие как unCLIP, состоят из нескольких этапов, что приводит к накоплению ошибок и создает значительные вычислительные трудности для практического применения в интерфейсах мозг-компьютер.

Перспективы развития: Расширение области нейродекодирования

Несмотря на то, что текущее исследование сосредоточено на авторегрессионных моделях для реконструкции визуальных образов по нейронным сигналам, альтернативные генеративные подходы, в частности диффузионные модели, демонстрируют значительный потенциал для дальнейшего повышения качества восстановленных изображений. Диффузионные модели, в отличие от авторегрессионных, способны генерировать более детализированные и реалистичные изображения за счет итеративного процесса удаления шума, что может привести к более точному восстановлению исходной визуальной информации. Предварительные исследования показывают, что интеграция диффузионных моделей в существующую архитектуру может существенно улучшить разрешение и правдоподобность реконструируемых изображений, открывая новые возможности для понимания механизмов зрительного восприятия и разработки передовых нейроинтерфейсов.

Исследования демонстрируют потенциал интеграции данной технологии декодирования нейронных сигналов с интерфейсами мозг-компьютер для восстановления зрительного восприятия у людей с нарушениями зрения. Предполагается, что путем преобразования активности мозга, вызванной визуальными стимулами или даже внутренними образами, в реконструируемые изображения, можно создать искусственное зрение. Такой подход подразумевает разработку нейропротезов, способных обходить поврежденные участки зрительной системы и напрямую стимулировать зрительную кору, позволяя пациентам вновь воспринимать окружающий мир. Успешная реализация подобной технологии открывает перспективные возможности для улучшения качества жизни людей с полной или частичной слепотой, предоставляя им новый способ взаимодействия с визуальной информацией.

Предложенная схема декодирования визуальной информации не ограничивается воссозданием простых изображений. Её архитектура открывает перспективы для анализа и реконструкции сложных визуальных сцен, включающих множество объектов и взаимосвязей между ними. Более того, принципы, лежащие в основе данной разработки, позволяют перейти от декодирования внешних стимулов к интерпретации внутренней визуальной репрезентации — то есть, воссозданию изображений, формирующихся в сознании человека, даже при отсутствии непосредственного внешнего воздействия. Это открывает уникальные возможности для изучения процессов воображения, сновидений и других форм внутреннего визуального опыта, что представляет значительный интерес для нейронауки и когнитивной психологии.

Точное восстановление зрительных переживаний на основе нейронных сигналов открывает принципиально новые возможности для изучения сознания и природы восприятия. Воссоздание визуальных образов непосредственно из активности мозга позволяет перейти от субъективных отчетов к объективной регистрации и анализу переживаемого опыта. Это, в свою очередь, предоставляет уникальный инструмент для исследования нейронных коррелятов сознания — какие именно паттерны активности мозга соответствуют определенным аспектам визуального восприятия, таким как цвет, форма или движение. Понимание этих связей может пролить свет на фундаментальные вопросы о том, как мозг создает субъективную реальность и как формируется наше внутреннее «я». Более того, возможность декодировать внутренние зрительные образы — те, что возникают в отсутствие внешних стимулов — открывает перспективы для изучения сновидений, воображения и других форм ментальной активности, приближая науку к пониманию самых загадочных аспектов человеческого разума.

Анализ схожести между промежуточными масштабами обработки и областями мозга показывает, что по мере добавления масштабов сходство обычно увеличивается, при этом различные области демонстрируют различные паттерны: затылочная область достигает пика на ранних масштабах, теменно-височная - на ранних и средних, а лобно-центральная - на поздних, отражая кумулятивный характер генеративного процесса и вклад каждого масштаба в формирование представления. — Анализ схожести между промежуточными масштабами обработки и областями мозга показывает, что по мере добавления масштабов сходство обычно увеличивается, при этом различные области демонстрируют различные паттерны: затылочная область достигает пика на ранних масштабах, теменно-височная — на ранних и средних, а лобно-центральная — на поздних, отражая кумулятивный характер генеративного процесса и вклад каждого масштаба в формирование представления.

Исследование, представленное в данной работе, демонстрирует стремление к созданию систем, способных извлекать информацию из хаоса нейронной активности. Авторегрессионный подход, предложенный авторами для декодирования визуальных сигналов из ЭЭГ, подобен попытке вырастить сад из семян в непредсказуемой среде. Данный метод, фокусируясь на последовательном построении изображения, избегает прямого моделирования всей сложности сигнала, что соответствует принципу минимизации рисков при проектировании. Как однажды заметил Клод Шеннон: «Теория связи — это просто способ организовать хаос». В данном контексте, AVDE является не просто алгоритмом, а экосистемой, способной приспосабливаться к изменчивости ЭЭГ-сигналов и устойчиво реконструировать визуальную информацию.

Что впереди?

Представленная работа, подобно аккуратно выращенному ростку, демонстрирует возможности декодирования визуальной информации из сигналов ЭЭГ. Однако, не стоит обольщаться иллюзией полного понимания. Система — это не машина, это сад; и даже самая тщательно спроектированная архитектура неизбежно столкнётся с проявлениями энтропии. Улучшение эффективности, достигнутое благодаря авторегрессионному подходу, — лишь временная передышка перед лицом нерешенных задач.

Будущие исследования должны сместить фокус с простой реконструкции изображения на понимание процессов, лежащих в основе его формирования в сознании. Контрастное обучение и диффузионные модели — лишь инструменты, а истинная цель — не создать «фотографию» из мозговых волн, а понять, как мозг строит внутреннюю модель реальности. Устойчивость системы не в изоляции компонентов, а в их способности прощать ошибки друг друга; необходимо развивать методы, позволяющие декодировать информацию даже при наличии шума и артефактов.

И, пожалуй, самое важное — осознать, что декодирование мозговой активности — это не просто технологическая задача, но и философский вызов. Каждый архитектурный выбор — это пророчество о будущем сбое. Истина не в совершенстве алгоритма, а в признании его ограниченности.

Оригинал статьи: https://arxiv.org/pdf/2602.22555.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-01 04:48