Искусственный интеллект на страже здоровья: распознавание COVID-19 по рентгеновским снимкам

Автор: Денис Аветисян


Новый подход к классификации медицинских изображений позволяет повысить точность диагностики COVID-19 даже при дисбалансе данных.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
Прогрессивные генеративные состязательные сети (ProGAN) демонстрируют способность синтезировать изображения, относящиеся к классу COVID-19, постепенно увеличивая разрешение от <span class="katex-eq" data-katex-display="false">7 \times 7</span> до <span class="katex-eq" data-katex-display="false">224 \times 224</span> пикселей, что подтверждает поэтапный подход к генерации детализированных изображений из латентного пространства.
Прогрессивные генеративные состязательные сети (ProGAN) демонстрируют способность синтезировать изображения, относящиеся к классу COVID-19, постепенно увеличивая разрешение от 7 \times 7 до 224 \times 224 пикселей, что подтверждает поэтапный подход к генерации детализированных изображений из латентного пространства.

В исследовании предложен метод аугментации данных с использованием генеративных состязательных сетей ProGAN и оптимизации классификатора ResNet50V2 алгоритмом Slime Mould для улучшения распознавания рентгеновских снимков грудной клетки.

Несмотря на значительный прогресс в области медицинской визуализации, классификация изображений при несбалансированных данных остается сложной задачей. В данной работе, посвященной ‘Medical Image Classification on Imbalanced Data Using ProGAN and SMA-Optimized ResNet: Application to COVID-19’, предложен новый подход к решению этой проблемы, сочетающий генерацию синтетических данных с помощью ProGAN и оптимизацию гиперпараметров ResNet50V2 с использованием алгоритма Slime Mould. Достигнутая точность в 95.5% и 98.5% для 4- и 2-классовых задач классификации рентгеновских снимков грудной клетки подтверждает эффективность предложенного метода. Может ли подобный подход стать стандартом для анализа медицинских изображений в условиях дефицита и несбалансированности данных, особенно во время пандемий?


Неизбежный Дисбаланс: Проблема Классификации Рентгеновских Снимков

Точная диагностика по рентгеновским снимкам органов грудной клетки имеет решающее значение, однако существующие наборы данных часто страдают от значительного дисбаланса классов, что негативно сказывается на эффективности работы алгоритмов. Этот дисбаланс, при котором некоторые заболевания представлены в данных значительно реже других, приводит к смещению стандартных методов классификации, снижая их способность к обобщению и корректному определению редких, но потенциально опасных состояний. В результате, системы, обученные на несбалансированных данных, могут демонстрировать высокую точность в определении наиболее распространенных заболеваний, но при этом ошибочно диагностировать или пропускать менее часто встречающиеся патологии, что представляет серьезную угрозу для качества медицинской помощи.

Несбалансированность данных в задачах классификации рентгеновских снимков грудной клетки представляет собой серьезную проблему, поскольку стандартные алгоритмы машинного обучения склонны к предвзятости в сторону наиболее представленных классов. Это означает, что при наличии значительно меньшего количества изображений, соответствующих определенным заболеваниям, алгоритм будет демонстрировать сниженную способность к обобщению и, как следствие, ошибочно диагностировать редкие, но критически важные состояния. Такая предвзятость возникает из-за того, что алгоритм оптимизируется для достижения высокой точности на преобладающих классах, игнорируя при этом особенности менее распространенных, что приводит к ухудшению производительности и потенциальным клиническим ошибкам. Подобная ситуация особенно актуальна при диагностике редких форм пневмонии или новых заболеваний, таких как COVID-19, где количество доступных данных для обучения может быть ограниченным.

Традиционные методы машинного обучения часто испытывают трудности при анализе рентгеновских снимков грудной клетки, особенно когда речь идет о редких, но клинически значимых заболеваниях, таких как определенные типы вирусной пневмонии или COVID-19. Проблема заключается в том, что алгоритмы, обученные на несбалансированных данных, где количество снимков, демонстрирующих редкое заболевание, значительно меньше, чем снимков здоровых пациентов или пациентов с более распространенными патологиями, склонны игнорировать или неправильно классифицировать эти редкие случаи. В результате, точность диагностики снижается, а возможность своевременного выявления и лечения критических состояний существенно уменьшается. Эффективное распознавание редких патологий требует от алгоритмов способности извлекать значимые признаки даже из ограниченного количества примеров, что представляет собой серьезную задачу для стандартных методов классификации.

Недостаток данных, особенно в отношении редких, но критически важных заболеваний, представляет собой серьезную проблему при создании надежных и справедливых диагностических инструментов на основе рентгеновских снимков грудной клетки. Ограниченное количество примеров, доступных для обучения алгоритмов, приводит к тому, что они недостаточно хорошо распознают эти состояния, что может привести к пропущенным диагнозам и неправильному лечению. Преодоление этой нехватки данных требует инновационных подходов, таких как методы искусственного увеличения данных, использование синтетических данных или разработка алгоритмов, специально предназначенных для работы с несбалансированными наборами данных. Только путем обеспечения адекватного представления всех состояний можно создать диагностические инструменты, которые будут точными, надежными и справедливыми для всех пациентов.

Кросс-валидация показала, что для задачи бинарной классификации несбалансированного реального набора данных, средняя матрица ошибок (слева) и её нормализованная версия (справа) демонстрируют эффективность модели в различении классов.
Кросс-валидация показала, что для задачи бинарной классификации несбалансированного реального набора данных, средняя матрица ошибок (слева) и её нормализованная версия (справа) демонстрируют эффективность модели в различении классов.

Синтез Реальности: Генерация Данных с ProGAN

Для увеличения объема обучающей выборки и повышения эффективности классификатора рентгеновских снимков грудной клетки (CXR) была применена модель ProGAN (Progressive Generative Adversarial Network). ProGAN генерирует синтетические изображения CXR для каждого класса, стремясь к реалистичности и разнообразию. Этот подход позволил эффективно увеличить размер исходного набора данных, предоставив модели больше примеров для обучения и, как следствие, улучшив её способность к обобщению и распознаванию различных патологий на рентгеновских снимках.

Для обучения ProGAN использовалась функция потерь Вассерштейна (Wasserstein Loss), что позволило добиться генерации изображений высокого качества и минимизировать эффект схлопывания мод (mode collapse). В отличие от стандартных функций потерь, Вассерштейна обеспечивает более стабильный градиент во время обучения генеративных состязательных сетей (GAN), особенно на ранних стадиях. Это приводит к более плавному обучению и предотвращает ситуацию, когда генератор начинает производить ограниченный набор схожих изображений, игнорируя разнообразие в обучающих данных. Использование данной функции потерь позволило получить синтетические рентгеновские снимки, более точно отражающие реальное распределение данных.

Ключевым параметром при использовании синтетических данных являлось соотношение количества синтетических изображений к исходным данным (Synthetic Image Injection Ratio, SIIR). Проведенные эксперименты показали, что оптимальным значением SIIR для балансировки датасета является 20%. Данное значение было определено эмпирически, путем оценки влияния различных значений SIIR на производительность классификатора, и позволило достичь наилучшего баланса между представленностью различных классов и общей точностью модели. Более высокие значения SIIR приводили к перенасыщению датасета синтетическими данными и снижению производительности, в то время как более низкие значения не обеспечивали достаточной балансировки.

Использование синтетических данных, сгенерированных с помощью ProGAN, было направлено на корректировку дисбаланса классов в исходном наборе данных рентгенограмм грудной клетки. Недостаточное количество примеров для некоторых медицинских состояний могло привести к снижению производительности классификатора при диагностике этих состояний. Добавление синтетических изображений позволило увеличить количество доступных примеров для недостаточно представленных классов, обеспечивая более равномерное распределение данных и потенциально улучшая общую точность и надежность системы классификации. Оптимальное соотношение синтетических данных к исходным данным было определено экспериментально для достижения наилучшего баланса.

Анализ матрицы ошибок, полученной в результате кросс-валидации, показывает эффективность классификации случайным образом выбранных изображений для обучения ProGANs.
Анализ матрицы ошибок, полученной в результате кросс-валидации, показывает эффективность классификации случайным образом выбранных изображений для обучения ProGANs.

ResNet50V2 и Оптимизация Гиперпараметров: Строгий Подход к Классификации

В качестве основного классификатора для анализа рентгеновских снимков грудной клетки (CXR) была выбрана предварительно обученная свёрточная нейронная сеть ResNet50V2. Данная архитектура была предпочтена благодаря её эффективности в задачах компьютерного зрения и способности к переносу обучения, что позволило сократить время и ресурсы, необходимые для достижения высокой точности классификации. ResNet50V2 представляет собой глубокую нейронную сеть, состоящую из 50 слоев, и использует остаточные соединения (residual connections) для облегчения обучения и предотвращения проблемы затухания градиента, характерной для очень глубоких сетей. Использование предварительно обученной модели позволило использовать знания, полученные на большом наборе данных ImageNet, и адаптировать их для специфической задачи классификации рентгеновских снимков.

Для тонкой настройки конфигурации сети ResNet50V2 использовался алгоритм SMA (Sequential Meta-heuristic Algorithm), представляющий собой метаэвристический метод оптимизации. В процессе оптимизации, SMA последовательно изменял гиперпараметры модели, стремясь к достижению максимальной производительности на валидационном наборе данных. В результате оптимизации был определен оптимальный коэффициент обучения, составивший 7.26e-5. Данный коэффициент обучения использовался на протяжении всего процесса тренировки для обеспечения стабильности и эффективности обучения сети.

Для обучения и оценки ResNet50V2 использовался комбинированный набор данных, включающий как реальные рентгенограммы грудной клетки (CXR), полученные из клинических источников, так и синтетические изображения CXR, сгенерированные с использованием методов расширения данных. Использование синтетических данных позволило увеличить размер обучающей выборки и повысить устойчивость модели к вариациям в качестве и характеристиках изображений, компенсируя ограниченность доступных реальных данных и потенциальные смещения в них. Комбинированный набор данных обеспечил более полное представление о пространстве признаков и улучшил обобщающую способность модели при классификации CXR изображений.

Для обеспечения надежности и обобщающей способности полученных результатов, оценка производительности модели проводилась с использованием 10-кратной перекрестной проверки (10-fold cross-validation). В процессе перекрестной проверки, исходный набор данных был разделен на 10 равных частей. Модель последовательно обучалась на 9 из этих частей, а затем тестировалась на оставшейся, что позволило оценить её производительность на различных подмножествах данных. По результатам 10-кратной перекрестной проверки была достигнута точность классификации в 94%, что свидетельствует о высокой устойчивости и способности модели к обобщению на новые, ранее не встречавшиеся изображения рентгеновских снимков.

Анализ матрицы ошибок, полученной в результате кросс-валидации, показывает эффективность оптимизированной сети ResNet50V2 в задаче классификации несбалансированного набора данных из четырех классов.
Анализ матрицы ошибок, полученной в результате кросс-валидации, показывает эффективность оптимизированной сети ResNet50V2 в задаче классификации несбалансированного набора данных из четырех классов.

Повышенная Классификация и Надежность: Результаты Упорного Труда

Интеграция синтетических данных, сгенерированных с использованием ProGAN, продемонстрировала значительное повышение точности классификации по всем классам. Особенно заметен прогресс в распознавании изначально недостаточно представленных категорий, что позволило добиться общего улучшения на 3.53%. Использование генеративно-состязательных сетей позволило эффективно дополнить обучающую выборку, нивелируя дисбаланс и повышая надежность диагностической системы в отношении редких случаев. Такой подход открывает возможности для создания более устойчивых и точных алгоритмов машинного обучения в задачах, где сбор достаточного количества данных для всех категорий представляет сложность.

Несбалансированность классов в исходных данных представляла собой серьезную проблему для точности диагностической системы, приводя к систематическим ошибкам в оценке редких состояний. Для решения этой проблемы были применены специальные методы, направленные на выравнивание представленности каждого класса в обучающей выборке. Это позволило существенно снизить предвзятость алгоритма и повысить его надежность в целом. В результате, система стала более эффективно выявлять все типы патологий, обеспечивая более точную и объективную диагностику, особенно в случаях, когда исходные данные содержали недостаточно информации о конкретном состоянии.

Предварительная обработка изображений с использованием Сингулярного Разложения (Singular Value Decomposition) в сочетании с Контрастно-ограниченной Адаптивной Гистограммой Эквалайзации (Contrast Limited Adaptive Histogram Equalization) позволила значительно повысить качество получаемых изображений и, как следствие, улучшить точность классификации. Данный подход эффективно снижает уровень шума и повышает контрастность, особенно в областях, где детализация была затруднена из-за низкого освещения или других факторов. Благодаря этому, алгоритмы классификации получили более четкие и информативные входные данные, что привело к более надежным и точным результатам диагностики, а также повысило устойчивость системы к вариациям в качестве исходных изображений.

В процессе обучения диагностической системы использовалась взвешенная категориальная кросс-энтропия, что позволило эффективно решить проблему дисбаланса классов. Данная функция потерь придает больший вес ошибкам, возникающим при классификации объектов из малочисленных классов, тем самым стимулируя модель уделять им повышенное внимание. Это привело к улучшению способности системы правильно идентифицировать редкие патологии, которые часто остаются незамеченными при стандартных подходах к обучению, где доминируют более распространенные классы. Применение данной функции потерь существенно повысило надежность и точность диагностики, особенно в случаях, когда важно выявлять даже небольшие отклонения от нормы.

В процессе обучения на первом этапе для класса Covid-19 наблюдалось снижение потерь как у критика, так и у генератора, что свидетельствует о сходимости алгоритма.
В процессе обучения на первом этапе для класса Covid-19 наблюдалось снижение потерь как у критика, так и у генератора, что свидетельствует о сходимости алгоритма.

Исследование, посвящённое классификации медицинских изображений при дисбалансе данных, закономерно опирается на генеративные adversarial сети. Авторы предлагают использовать ProGAN для аугментации датасетов, что, в принципе, не ново. В 2012-м пытались решить похожие проблемы с помощью других методов, и тогда же стало понятно, что увеличение объёма данных — это лишь временное решение. Как заметил Джеффри Хинтон: «Совершенствование алгоритмов — это бесконечный процесс, а данные всегда будут грязными». Впрочем, оптимизация ResNet50V2 с помощью Slime Mould Algorithm — это интересная попытка обуздать неизбежный технический долг, который, рано или поздно, придётся выплачивать.

Что дальше?

Предложенное решение, безусловно, добавляет ещё один слой сложности в и без того непростую задачу классификации медицинских изображений. Увеличение данных с помощью ProGAN, оптимизированное Slime Mould Algorithm… всё это выглядит элегантно в лабораторных условиях. Однако, опыт подсказывает, что реальные данные всегда найдут способ обойти даже самые тщательно продуманные алгоритмы. Балансировка классов — лишь одна из проблем. Что остаётся за кадром — это разнообразие оборудования, протоколов съёмки, и, что самое главное, субъективности врачей, ставящих диагнозы. Оптимизация ResNet50V2 — это хорошо, но в конечном итоге, система будет лишь эхом тех решений, которые принимаются людьми.

Следующим этапом, вероятно, станет попытка интеграции этих методов с другими модальностями данных — клиническими данными, результатами анализов. Но стоит помнить, что увеличение объёма данных не всегда равно улучшению качества. Скорее, это просто увеличивает пространство для ошибок. На горизонте маячит неизбежное — необходимость объяснения решений, принятых алгоритмом. Как убедить врача в правильности диагноза, поставленного «чёрным ящиком»? Или, что более вероятно, как найти ошибку в этом «чёрном ящике» после того, как он уже начал работать?

В конечном счёте, всё это — лишь временное облегчение симптомов. Техдолг растёт, а проблемы остаются. Можно бесконечно оптимизировать ResNet, но настоящая задача — это не создание идеального классификатора, а создание системы, которая помогает врачам принимать более обоснованные решения. И, возможно, главное — это научиться жить с тем, что система никогда не будет идеальной. Это, пожалуй, и есть самое сложное.


Оригинал статьи: https://arxiv.org/pdf/2512.24214.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-03 00:56