Предсказание эпидемий: новый взгляд на данные

Автор: Денис Аветисян

Исследователи демонстрируют, как синтетические данные и генетический анализ вариантов позволяют значительно повысить точность прогнозирования вспышек инфекционных заболеваний.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Анализ вероятностей, предсказанных для синтетических и реальных респираторных данных, выявил, что данные о COVID-19 с высокой вероятностью классифицируются как синтетические, в то время как не относящиеся к COVID-19 респираторные данные и собственно синтетические данные распознаются корректно, а визуализация данных в пространстве UMAP подтверждает тенденцию к смешению COVID-19 и синтетических данных, объясняя ошибочную классификацию.

Глубокое обучение с использованием синтетических данных и данных об атрибуции вариантов обеспечивает передовую точность прогнозирования даже при ограниченном объеме исторических данных.

Прогнозирование вспышек инфекционных заболеваний сопряжено со значительными трудностями, особенно при ограниченности исторических данных. В работе ‘Leveraging Synthetic and Genetic Data to Improve Epidemic Forecasting’ исследуются возможности повышения точности прогнозов возникающих инфекционных заболеваний в условиях реальных ограничений, с акцентом на использование синтетических данных и генетической информации. Полученные результаты демонстрируют, что модели глубокого обучения, обученные на синтетических данных с учетом данных о генетических вариантах, превосходят традиционные подходы и обеспечивают высокую точность прогнозирования, даже превосходя результаты ансамблевых моделей COVIDHub. Сможем ли мы, используя эти подходы, создать надежную систему раннего предупреждения о будущих пандемиях?

Погрешности Прогнозов: Человек как Систематическая Ошибка

Точное прогнозирование распространения COVID-19 имеет решающее значение для эффективного планирования мер общественного здравоохранения, однако традиционные эпидемиологические модели часто сталкиваются с серьезными трудностями при учете сложности эволюции вируса и непредсказуемости поведения людей. Эти модели, как правило, основаны на предположениях о стабильности вируса и рациональности действий населения, которые редко соответствуют реальности. Быстрое появление новых вариантов вируса, обладающих повышенной заразностью или способностью уклоняться от иммунного ответа, вносит значительную неопределенность в прогнозы, делая их менее надежными. Кроме того, человеческое поведение — соблюдение мер предосторожности, вакцинация, социальные контакты — подвержено множеству факторов, которые трудно предсказать и количественно оценить, что также снижает точность прогнозов и требует разработки более гибких и адаптивных моделей.

Появление новых вариантов вирусов, обусловленное антигенным дрейфом и шифтом, вносит значительную неопределенность в динамику эпидемических процессов. Мутации в антигенных детерминантах вируса приводят к снижению эффективности существующего иммунитета, как приобретенного в результате вакцинации, так и естественной инфекции. Это, в свою очередь, создает условия для повторных вспышек, даже среди ранее инфицированных или вакцинированных лиц, и затрудняет прогнозирование краткосрочной заболеваемости. Непредсказуемость скорости распространения новых вариантов и их способности уклоняться от иммунного ответа существенно ограничивает точность существующих моделей прогнозирования, подчеркивая необходимость разработки более адаптивных и чувствительных методов, способных учитывать эволюционную динамику вирусов.

Существующие методы прогнозирования эпидемий зачастую сталкиваются с трудностями при одновременном анализе разнородных источников информации. Традиционные модели, как правило, ориентированы на обработку ограниченного набора данных, например, статистики заболеваемости или демографических показателей. Однако, для создания действительно надежных и детализированных прогнозов, необходимо учитывать и данные о циркулирующих вариантах вируса, включая скорость их распространения и степень заразности, и информацию, поступающую из реального времени — данные о мобильности населения, результатах тестирования, а также о загруженности системы здравоохранения. Интеграция этих разнородных потоков данных представляет собой сложную задачу, требующую разработки новых алгоритмов и методов машинного обучения, способных выявлять закономерности и взаимосвязи, которые остаются незамеченными при использовании традиционных подходов. Отсутствие такой интеграции снижает точность прогнозов и ограничивает возможности для принятия эффективных мер по борьбе с распространением инфекции.

Анализ данных по COVID-19 в Алабаме и Калифорнии показывает еженедельное количество случаев заболевания, долю обнаруженных вариантов вируса и оценку количества случаев, связанных с каждым вариантом, при этом общее количество случаев соответствует сумме случаев, приписанных всем вариантам, что визуализируется с использованием логарифмической шкалы для лучшей читаемости данных о малых значениях.

Генерация Реалистичных Данных: Моделирование Поведения

Для преодоления дефицита размеченных данных и обеспечения всестороннего тестирования сценариев, используется агент-ориентированная модель MutAntiGen для генерации синтетических данных о вспышках заболеваний. MutAntiGen моделирует поведение отдельных агентов (например, людей) и их взаимодействие в популяции, позволяя создавать реалистичные сценарии распространения инфекции. Синтетические данные генерируются с контролируемыми параметрами, такими как скорость передачи, латентный период и уровень вакцинации, что позволяет исследовать широкий спектр возможных сценариев и оценить эффективность различных стратегий вмешательства. Полученные данные служат основой для обучения и валидации моделей прогнозирования вспышек, компенсируя недостаток реальных размеченных данных и расширяя возможности для всестороннего анализа.

Синтетические данные, сгенерированные моделью MutAntiGen, подвергаются дальнейшей обработке с использованием Модели Наблюдения. Эта модель вводит реалистичный шум и вариации, имитирующие сложность реальных вспышек заболеваний. В частности, Модель Наблюдения учитывает факторы, такие как задержки в отчетности, неполнота данных о случаях и ошибки в диагностике. Внедрение этих искажений позволяет создать более правдоподобный набор данных для обучения, что повышает устойчивость и обобщающую способность прогностических моделей к несовершенству реальных данных эпиднадзора.

Комбинирование синтетических и реальных данных позволяет создать более полную обучающую выборку, значительно повышающую устойчивость и обобщающую способность наших прогностических моделей. Использование синтетических данных, генерируемых моделью MutAntiGen, дополняет ограниченные объемы реальных данных, обеспечивая покрытие широкого спектра возможных сценариев развития вспышек. Такой подход позволяет моделям эффективно работать в условиях неполноты или шума в реальных данных, а также адаптироваться к новым, ранее не встречавшимся ситуациям, что в конечном итоге приводит к достижению передовых результатов в области прогнозирования.

Модель наблюдения генерирует 20 реализаций, соответствующих одному выходу MutAntiGen, используя масштабирование (случайное сжатие по оси x) и добавление выбросов (верхний ряд) или масштабирование, шум и выбросы (нижний ряд).

Глубокое Обучение для Прогнозирования: Архитектура Transformer

В качестве основной модели прогнозирования используется архитектура Transformer, что обусловлено ее способностью эффективно обрабатывать последовательные данные и выявлять сложные зависимости между ними. Transformer, в отличие от рекуррентных нейронных сетей, обрабатывает всю последовательность параллельно, используя механизм self-attention для взвешивания значимости различных элементов последовательности при прогнозировании. Это позволяет модели улавливать долгосрочные зависимости и контекст, что критически важно для точного прогнозирования временных рядов. В нашей реализации, архитектура Transformer адаптирована для обработки многомерных временных рядов и включает в себя несколько слоев внимания и прямого распространения, обеспечивающих высокую точность и масштабируемость.

Оптимизация обучения модели производится с использованием функции потерь Pinball, также известной как Quantile Loss. В отличие от среднеквадратичной ошибки (MSE), которая чувствительна к выбросам и ориентирована на предсказание среднего значения, Pinball Loss позволяет напрямую моделировать конкретные квантили распределения прогнозируемых значений. Это достигается путем минимизации взвешенной суммы ошибок, где вес зависит от выбранного квантиля τ. Таким образом, модель способна предсказывать не только среднее значение, но и, например, 5-й или 95-й процентили, предоставляя количественную оценку неопределенности прогноза и позволяя оценивать риски, связанные с различными сценариями.

Для выбора оптимальных гиперпараметров модели прогнозирования используется экспоненциальное скользящее среднее (Exponential Moving Average, EMA). EMA позволяет сгладить колебания в значениях параметров, полученных в процессе обучения, придавая больший вес последним наблюдениям. Это особенно важно в динамичных временных рядах, где текущие данные могут быть более релевантными, чем исторические. Вес скользящего среднего определяется коэффициентом α (обычно в диапазоне от 0 до 1), определяющим скорость адаптации к новым данным. Использование EMA способствует повышению стабильности модели и улучшению её прогностической способности за счет минимизации влияния случайных шумов и выбросов в данных обучения.

Квантильная регрессия позволяет получать вероятностные прогнозы, расширяя возможности традиционных методов прогнозирования. В отличие от точечных прогнозов, которые предоставляют одно значение, квантильная регрессия оценивает различные квантили распределения вероятностей прогнозируемой величины. Это позволяет оценить не только наиболее вероятное значение, но и диапазон возможных значений с определенной вероятностью, например, 5-й и 95-й процентили. Такой подход особенно важен для принятия решений в условиях неопределенности, поскольку предоставляет информацию о рисках и потенциальных отклонениях от прогнозируемого значения, что критично для управления рисками и оптимизации стратегий.

Анализ временных рядов заболеваемости (на примере штата Алабама) показывает, что модели VAC демонстрируют значительное превосходство над моделями TC на фазах надвигающегося и происходящего спада эпидемии, в то время как на фазах надвигающегося и происходящего подъема их производительность сопоставима, что подтверждается положительными различиями в rMAE и rWIS (с 95% доверительным интервалом, оцененным на основе 5000 bootstrap выборок).

Проверка Точности Прогнозов: Комплексный Подход

Для оценки точности прогнозов и надёжности полученных интервалов использовался комплексный подход, включающий в себя общепринятые метрики и продвинутую статистическую технику — блочный бутстрап. Данный метод позволяет учесть взаимосвязи внутри временных рядов, что особенно важно при анализе эпидемиологических данных, где текущие значения тесно связаны с предыдущими. Применение блочного бутстрапа позволило получить более реалистичные оценки неопределённости прогнозов, поскольку традиционные методы, предполагающие независимость наблюдений, могут недооценивать риски. Оценка производилась с использованием таких показателей, как Relative Weighted Interval Score (rWIS), позволяющего комплексно оценить точность и калибровку прогнозов, а также проверка эмпирического покрытия, демонстрирующая соответствие фактической частоты попадания наблюдаемых значений в предсказанные интервалы заявленному уровню доверия.

Исследования показали, что разработанный подход демонстрирует стабильное превосходство над базовыми моделями в прогнозировании ключевых показателей пандемии. Оценка, основанная на показателе Relative Weighted Interval Score (rWIS), составила 0.81, что значительно превышает результат модели COVIDHub-4_week_ensemble. Данный показатель свидетельствует о более высокой точности и надежности прогнозов, предоставляемых новой методикой, и подтверждает её потенциал для улучшения планирования и реагирования на будущие вспышки инфекционных заболеваний. Полученные данные указывают на существенный прогресс в области эпидемиологического моделирования и прогнозирования.

В ходе валидации точности прогнозов было установлено, что разработанные модели демонстрируют более высокую эмпирическую охватность — от 0.84 до 0.88 — по сравнению с моделью COVIDHub-4_week_ensemble, показатель которой составил 0.8. Данный параметр отражает долю случаев, когда фактические значения эпидемических показателей попадают в предсказанный доверительный интервал. Более высокая эмпирическая охватность свидетельствует о лучшей калибровке моделей и, следовательно, о более надежных оценках неопределенности прогнозов. Это означает, что предложенные модели способны более точно отражать реальную степень риска, связанного с распространением инфекции, что критически важно для принятия обоснованных решений в области общественного здравоохранения.

Для подтверждения статистической значимости полученных результатов, применялась методика бутстрапа, основанная на анализе 5000 повторных выборок. Данный подход позволил установить, что модели, обученные на комбинации синтетических и реальных данных, демонстрируют статистически значимое превосходство над моделями, обученными исключительно на реальных данных. Это указывает на ценность использования синтетических данных для расширения обучающей выборки и повышения надежности прогнозов, особенно в условиях ограниченности реальных данных. Полученные доверительные интервалы, рассчитанные на основе бутстрап-выборок, подтверждают устойчивость наблюдаемых улучшений и их статистическую значимость.

Анализ 5000 выборок бутстрапа показывает, что учет группировки состояний и дат прогноза (blocked bootstrap) приводит к более широким интервалам неопределенности для <span class="katex-eq" data-katex-display="false">rMAE</span> и <span class="katex-eq" data-katex-display="false">rWIS</span> по сравнению с независимой выборкой (iid bootstrap), что указывает на значимость учета зависимостей в данных. — Анализ 5000 выборок бутстрапа показывает, что учет группировки состояний и дат прогноза (blocked bootstrap) приводит к более широким интервалам неопределенности для $rMAE$ и $rWIS$ по сравнению с независимой выборкой (iid bootstrap), что указывает на значимость учета зависимостей в данных.

Расширение Области Прогнозирования: Путь к Готовности

Ансамблевое прогнозирование представляет собой мощный подход к повышению точности предсказаний, особенно в сложных системах, таких как распространение инфекционных заболеваний. Вместо того, чтобы полагаться на одну модель, которая может иметь собственные ограничения и предвзятости, данный метод объединяет прогнозы, полученные из множества различных моделей. Интегрируя их сильные стороны и компенсируя слабые, ансамблевое прогнозирование значительно снижает вероятность ошибок, возникающих из-за индивидуальных неточностей. Такой подход не только повышает надежность краткосрочных предсказаний, но и обеспечивает более устойчивые долгосрочные прогнозы, что особенно важно для разработки эффективных стратегий готовности к пандемиям и смягчения их последствий. Использование ансамблевого подхода позволяет получить более полную и объективную картину, снижая зависимость от отдельных, потенциально ошибочных, моделей.

Разработанная платформа не ограничивается предсказанием распространения текущей пандемии, но обладает значительным потенциалом для адаптации к другим инфекционным заболеваниям. Гибкость системы позволяет интегрировать разнообразные потоки данных, в том числе и информацию, полученную в результате геномного надзора. Анализ генетических изменений патогенов, включенный в модель, повышает точность прогнозов, позволяя отслеживать появление новых штаммов и оценивать их потенциальную опасность. Такая возможность особенно важна для болезней, характеризующихся высокой скоростью мутации, таких как грипп или коронавирусы, и открывает перспективы для разработки более эффективных стратегий сдерживания и контроля инфекций в будущем.

Непрерывные исследования и усовершенствования в области прогнозирования пандемий открывают путь к формированию более эффективных стратегий готовности и реагирования. Дальнейшая разработка и внедрение передовых методов, включая ансамблевое прогнозирование и интеграцию данных геномного надзора, позволит не только предвидеть возникновение новых вспышек инфекционных заболеваний, но и смягчить их последствия. Изучение различных моделей распространения, а также совершенствование систем раннего предупреждения, способствуют снижению рисков для здоровья населения и экономики, создавая основу для более устойчивого будущего перед лицом глобальных угроз. Подобный проактивный подход позволит перейти от реагирования на кризис к его предотвращению, значительно уменьшив бремя пандемий для всего человечества.

Для обучения доступно более двух миллионов измерений, полученных из более чем 2000 реальных временных рядов данных о дыхании, не связанных с COVID-19.

Исследование демонстрирует, что даже при ограниченности исторических данных, глубокое обучение, усиленное синтетическими данными и учётом данных о вариантах, способно достигать передовых результатов в прогнозировании вспышек инфекционных заболеваний. Этот подход не просто моделирует тенденции, но и пытается учесть сложность человеческого поведения и непредсказуемость вирусной эволюции. Как заметил Леонардо да Винчи: «Познав себя, ты познаешь вселенную». В данном контексте, понимание когнитивных искажений и поведенческих особенностей, влияющих на распространение заболеваний, является ключом к созданию более точных и надежных моделей прогнозирования. Ведь эпидемиологическое моделирование — это не только математика, но и психология, переведенная на язык графиков и таблиц.

Что дальше?

Представленная работа демонстрирует, что даже в хаосе эпидемиологических данных, можно построить модели, которые, по крайней мере, на короткий срок, кажутся предсказывающими будущее. Однако, это не победа над неопределенностью, а лишь её временное усмирение. Инвесторы, финансирующие подобные исследования, не учатся на ошибках, они просто ищут новые способы повторить старые — надеясь, что в этот раз алгоритм «сработает». Важно понимать, что синтетические данные — это не замена реальности, а её упрощенная проекция, отражающая лишь те закономерности, которые мы, создатели модели, посчитали значимыми.

Будущие исследования, вероятно, будут сосредоточены на интеграции ещё более сложных данных — социально-экономических факторов, поведенческих паттернов, даже политических решений. Но стоит помнить, что эпидемии — это не просто математические уравнения, а результат взаимодействия миллионов индивидуальных жизней, каждое из которых подчиняется своей собственной, часто иррациональной логике. Модели могут предсказывать тренды, но они не могут учесть внезапные мутации вируса, панические настроения или просто человеческую глупость.

Настоящий прогресс заключается не в создании всё более точных прогнозов, а в признании фундаментальной непредсказуемости мира. Вместо того чтобы пытаться «победить» эпидемии, стоит сосредоточиться на создании устойчивых систем здравоохранения, которые смогут адаптироваться к любым вызовам. Иначе, все эти сложные алгоритмы останутся лишь дорогостоящей иллюзией контроля над хаосом.

Оригинал статьи: https://arxiv.org/pdf/2603.24474.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 00:20