Искусственные данные: когда помощь становится помехой в машинном обучении

Автор: Денис Аветисян

Новое исследование показывает, что использование синтетических данных для улучшения моделей машинного обучения в финансах требует осторожности и тщательной оценки.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Использование синтетической аугментации данных, применительно к задаче предсказания направления опционов в режиме реального времени, демонстрирует снижение вневыборочного логарифмического убытка, что подтверждается более низкими средними p-значениями, полученными с помощью логистической регрессии, гребневой регрессии и случайного леса для различных размеров обучающей выборки и коэффициентов аугментации, при сравнении синтетических и реальных данных, а также синтетических и нулевых данных.

Эффективность синтетической аугментации зависит от предсказуемости задачи, емкости модели, качества генератора и корректной статистической проверки с использованием перестановочных тестов.

Несмотря на растущую популярность синтетического увеличения данных в машинном обучении для финансовых рынков, его статистическая роль и влияние на производительность моделей остаются недостаточно изученными. В работе ‘Improving Machine Learning Performance with Synthetic Augmentation’ предложена формализация синтетического увеличения как модификации эффективного распределения обучающей выборки, выявляющая компромисс между смещением и дисперсией. Показано, что эффективность синтетических данных зависит от предсказуемости задачи, мощности модели и качества генератора, а также требует строгого статистического тестирования с использованием перестановочных тестов. Когда же синтетическое увеличение данных действительно улучшает финансовое машинное обучение, а когда приводит к устойчивым искажениям распределения — вопрос, требующий дальнейшего изучения?

Вызов предсказания волатильности финансовых временных рядов

Традиционные методы прогнозирования финансовых временных рядов часто сталкиваются с серьезными трудностями из-за присущего им шума и нестационарности данных. Финансовые рынки характеризуются высокой волатильностью и постоянно меняющимися закономерностями, что делает статистические модели, основанные на предположении о стационарности, малоэффективными. Шум, возникающий из-за множества непредсказуемых факторов, маскирует истинные сигналы и снижает точность прогнозов. Например, модели скользящего среднего и авторегрессии, хорошо работающие с устойчивыми данными, могут давать значительные погрешности при анализе финансовых активов, подверженных резким колебаниям. В результате, полагаться исключительно на классические подходы в прогнозировании финансовых рынков представляется нецелесообразным, что стимулирует поиск более сложных и адаптивных моделей, способных учитывать динамику и нелинейность финансовых данных.

Точное прогнозирование волатильности и направления движения финансовых активов имеет первостепенное значение для эффективного управления рисками и оптимизации инвестиционного портфеля. Неспособность предвидеть колебания цен может привести к значительным финансовым потерям, особенно в периоды рыночной нестабильности. Следовательно, финансовые институты и инвесторы активно разрабатывают и внедряют сложные модели, стремясь с высокой точностью определить потенциальные риски и максимизировать доходность. Оценка волатильности, как меры разброса цен, позволяет адекватно оценить потенциальные убытки и установить соответствующие уровни защиты, а прогнозирование направления движения цен способствует принятию обоснованных инвестиционных решений и формированию портфеля, соответствующего заданным целям и уровню риска. $\sigma = \sqrt{\frac{1}{N-1} \sum_{i=1}^{N} (x_i - \bar{x})^2 }$ — стандартное отклонение, часто используемое для оценки волатильности.

Сложность динамики финансовых рынков обуславливает необходимость в моделях, способных улавливать сложные взаимосвязи и адаптироваться к изменяющимся условиям. Традиционные статистические подходы часто оказываются неэффективными из-за нелинейности и нестационарности данных, что требует разработки более гибких и адаптивных алгоритмов. Современные исследования направлены на использование методов машинного обучения, таких как рекуррентные нейронные сети и модели на основе деревьев решений, для выявления скрытых зависимостей и прогнозирования будущих изменений. Важно отметить, что эффективная модель должна учитывать не только исторические данные, но и внешние факторы, влияющие на рынок, такие как макроэкономические показатели, политические события и настроения инвесторов. Способность модели к самообучению и адаптации к новым данным является ключевым фактором для обеспечения долгосрочной эффективности и точности прогнозов в условиях постоянно меняющейся рыночной конъюнктуры.

Анализ показывает, что периоды высокой волатильности встречаются крайне редко, и предсказуемость направления рынка снижается в условиях повышенного стресса.

Искусственное расширение данных: расширяя горизонты прогнозирования

Искусственное расширение данных (synthetic data augmentation) представляет собой эффективный подход к увеличению объема обучающей выборки путем генерации новых, искусственно созданных образцов. Данный метод особенно полезен в ситуациях, когда получение реальных данных затруднено, дорогостояще или ограничено соображениями конфиденциальности. Создаваемые синтетические данные позволяют повысить обобщающую способность моделей машинного обучения, снизить риск переобучения и улучшить их производительность на невидимых данных. Эффективность подхода напрямую зависит от качества алгоритмов генерации и степени реалистичности создаваемых образцов.

Для генерации реалистичных финансовых временных рядов применяются различные методы, включая вариационные автоэнкодеры (VAE), TimeGAN и BlockBootstrap. VAE используют вероятностные модели для обучения сжатому представлению данных, позволяя генерировать новые примеры путем декодирования из этого пространства. TimeGAN, основанный на генеративно-состязательных сетях (GAN), эффективно моделирует временную зависимость данных, генерируя последовательности, имитирующие статистические свойства исходных данных. BlockBootstrap предполагает повторную выборку с возвращением блоков данных, что позволяет создавать новые временные ряды, сохраняя локальные зависимости и статистические характеристики исходного набора данных. Каждый из этих методов имеет свои преимущества и ограничения, выбор конкретного метода зависит от характеристик данных и требуемой точности генерации.

Эффективность методов синтетической аугментации данных напрямую зависит от учета вместимости модели и предотвращения переобучения на сгенерированных данных. Слишком простая модель может оказаться неспособной извлечь пользу из расширенного набора данных, в то время как модель с избыточной вместимостью рискует запомнить специфические характеристики синтетических примеров, что приведет к снижению обобщающей способности на реальных данных. Для минимизации риска переобучения необходимо применять методы регуляризации, такие как L1 или L2 регуляризация, использовать кросс-валидацию для оценки производительности и тщательно контролировать сложность модели, выбирая архитектуру, соответствующую объему и качеству как исходных, так и сгенерированных данных.

Оптимизация по коэффициентам аугментации выявила, что модель Copula Student-t демонстрирует стабильно положительные значения <span class="katex-eq" data-katex-display="false"> \hat{\delta} </span> порядка <span class="katex-eq" data-katex-display="false"> 10^{-3} </span>, в то время как TimeGAN и VAE показали наихудшие результаты, при этом статистическая значимость различий между моделями оказалась крайне низкой. — Оптимизация по коэффициентам аугментации выявила, что модель Copula Student-t демонстрирует стабильно положительные значения $\hat{\delta}$ порядка $10^{-3}$ , в то время как TimeGAN и VAE показали наихудшие результаты, при этом статистическая значимость различий между моделями оказалась крайне низкой.

Проверка прогностической силы с помощью статистической строгости

Пермутационные тесты представляют собой надежный, непараметрический метод оценки статистической значимости прироста предсказательной силы, полученного благодаря синтетической аугментации данных. В отличие от параметрических тестов, требующих определенных предположений о распределении данных, пермутационные тесты не зависят от этих предположений, что делает их применимыми к широкому спектру финансовых временных рядов. Суть метода заключается в многократном случайном перемешивании (перестановке) значений целевой переменной при сохранении исходных значений предикторов, формируя таким образом нулевое распределение. Наблюдаемый прирост предсказательной силы, полученный с использованием синтетических данных, затем сравнивается с этим нулевым распределением для вычисления p-значения, которое указывает на вероятность получения наблюдаемого результата при условии, что синтетическая аугментация не оказывает влияния. Низкое p-значение (обычно < 0.05) свидетельствует о статистической значимости прироста предсказательной силы и подтверждает эффективность использования синтетических данных.

Для создания нулевого распределения в перестановочных тестах исходные данные случайным образом перемешиваются (переставляются) многократно. Каждая перестановка создает новую, случайную версию набора данных, предполагающую отсутствие реальной связи между признаками и целевой переменной. Затем, вычисляется статистическая метрика (например, разница в производительности между моделью, обученной на исходных данных, и моделью, обученной на дополненных данных) для каждой перестановки. Полученное распределение этих статистических метрик и является нулевым распределением. Наблюдаемое значение статистической метрики, полученное на исходных данных, сравнивается с этим нулевым распределением для определения p-значения, которое указывает на вероятность получения наблюдаемого результата (или более экстремального), если бы нулевая гипотеза (отсутствие связи) была верна.

Методы нулевой аугментации позволяют создать базовый уровень для сравнительного анализа производительности, что способствует изоляции влияния синтетических данных. Суть заключается в создании дополнительных наборов данных путем случайного перемешивания (перестановки) существующих данных, сохраняя при этом их статистические свойства, но разрушая любые информативные связи. Сравнивая производительность модели, обученной на оригинальных данных, с производительностью модели, обученной на данных, дополненных нулевой аугментацией, можно оценить, насколько улучшение производительности связано именно с добавлением синтетических данных, а не с случайными колебаниями или особенностями исходного набора данных. Этот подход особенно важен при оценке эффективности методов синтетической аугментации, позволяя отделить реальные улучшения от статистического шума и обеспечить более надежную оценку их вклада в общую производительность модели.

Использование моделей Гауссовских сопряжений (Gaussian Copula) позволяет учитывать сложные зависимости внутри финансовых временных рядов. Применение данной модели показало увеличение коэффициента детерминации $R^2$ с 0.721 до 0.732 при использовании линейных моделей. Это свидетельствует о том, что модели Гауссовских сопряжений эффективно захватывают взаимосвязи между переменными, что приводит к повышению точности прогнозирования по сравнению с линейными моделями, не учитывающими эти зависимости.

В ходе прогнозирования волатильности были получены статистически значимые результаты, подтвержденные значениями p-value менее 0.001. Данный показатель указывает на высокую вероятность того, что наблюдаемые улучшения в точности прогноза не являются случайными, а обусловлены эффективностью использованных методов синтементации данных. Низкое значение p-value позволяет отвергнуть нулевую гипотезу об отсутствии влияния синтетических данных на повышение качества прогнозирования волатильности, подтверждая практическую значимость полученных результатов и их статистическую достоверность. $p < 0.001$ свидетельствует о существенном улучшении метрик прогнозирования.

В задачах классификации увеличение коэффициента аугментации α сначала оказывает незначительное положительное влияние, но затем приводит к ухудшению результатов для всех моделей, в то время как в задачах прогнозирования волатильности увеличение α стабильно повышает точность.

От волатильности к прогнозированию редких событий

Улучшение устойчивости прогнозов волатильности посредством синтетической аугментации данных открывает новые возможности для точного предсказания редких, но значимых событий. Исследования показывают, что добавление искусственно сгенерированных данных позволяет моделям более эффективно выявлять закономерности, которые остаются незамеченными при анализе только исторических данных. Этот подход особенно ценен в контексте финансовых рынков, где даже небольшое улучшение в предсказании экстремальных колебаний может существенно снизить риски и повысить прибыльность инвестиций. Повышенная надежность прогнозов волатильности, достигнутая благодаря аугментации, позволяет более уверенно оценивать вероятность наступления критических событий и принимать проактивные меры для защиты капитала и оптимизации стратегий управления рисками.

Исследования показали, что применение алгоритмов машинного обучения, таких как случайный лес (Random Forests) и гребневая регрессия (Ridge Regression), в сочетании с искусственно расширенными данными, значительно повышает точность прогнозирования направлений. Этот подход позволяет не только улучшить общую производительность моделей, но и более эффективно выявлять закономерности в данных, которые остаются незамеченными при использовании стандартных методов. Повышение точности в задачах, связанных с предсказанием направлений, особенно важно для принятия обоснованных решений в сфере финансов и управления рисками, где даже небольшое улучшение прогноза может привести к существенным результатам. Эффективность данного метода подтверждается статистически значимыми улучшениями в метриках оценки моделей, что указывает на его потенциал для практического применения.

Предсказание редких событий имеет первостепенное значение для эффективного управления рисками и принятия обоснованных инвестиционных решений. В условиях финансовых рынков, характеризующихся непредсказуемостью, способность выявлять и оценивать вероятность наступления экстремальных сценариев позволяет своевременно принимать меры по снижению потенциальных потерь и максимизации прибыли. Это особенно актуально для институциональных инвесторов и управляющих активами, которым необходимо обеспечивать стабильность портфелей и защищать интересы своих клиентов. Точное прогнозирование редких, но значимых событий, таких как внезапные изменения рыночной конъюнктуры или системные сбои, позволяет разрабатывать более надежные стратегии хеджирования и оптимизации инвестиционного процесса, существенно повышая устойчивость к неблагоприятным факторам и способствуя долгосрочному успеху.

Исследования показали значительное повышение точности прогнозирования редких событий благодаря применению методов аугментации данных. В частности, использование копул для аугментации в сочетании с линейными моделями позволило добиться прироста $\Delta R^2 = +0.011$ . Более того, применение диффузионных вероятностных моделей (DDPM) совместно с алгоритмом XGBoost продемонстрировало впечатляющее улучшение показателя средней точности (Average Precision) на $+0.125$ при обнаружении редких событий. Эти результаты указывают на эффективность предложенных подходов в контексте прогнозирования высокорисковых сценариев и подтверждают потенциал аугментации данных для повышения надежности финансовых моделей.

Анализ генераторов показывает, что они демонстрируют низкую эффективность в задачах направленной классификации (все значения отрицательные), но значительно превосходят в прогнозировании волатильности (все значения положительные, в 50-100 раз больше), что подчеркивает важность исходной силы сигнала для эффективности аугментации.

Исследование показывает, что искусственное увеличение данных в машинном обучении, особенно в финансовой сфере, не является панацеей. Эффективность данной практики напрямую зависит от предсказуемости задачи и способности модели к обучению. Как отмечал Пол Эрдёш: «Математика — это не просто набор фактов, а способ мышления». В контексте данной работы, это означает, что простое увеличение объема данных не гарантирует улучшения результатов, если не учитывать лежащие в основе закономерности и сложность модели. Особое внимание уделяется статистической значимости результатов, что подчеркивает необходимость применения строгих методов оценки, таких как перестановчатые тесты, для выявления истинного влияния аугментации данных на снижение смещения и дисперсии.

Куда Ведет Путь?

Представленная работа демонстрирует, что искусственное расширение данных в машинном обучении для финансовых задач — не панацея, а скорее инструмент, эффективность которого зависит от множества факторов. Стремление к увеличению объема данных само по себе не гарантирует успеха, особенно когда речь идет о системах, оперирующих с данными, подверженными структурным дисбалансам. Необходимость строгого статистического контроля, в частности, применение перестановочных тестов, подчеркивает, что оценка эффективности требует не просто демонстрации улучшения метрик, но и подтверждения его статистической значимости.

Вместо бесконечной гонки за генерацией новых данных, более продуктивным представляется изучение механизмов, определяющих чувствительность моделей к качеству и репрезентативности этих данных. Системы, как и люди, со временем учатся не спешить. Вместо того чтобы форсировать обучение, иногда лучше наблюдать за процессом, позволяя модели самостоятельно адаптироваться к имеющимся данным. Иногда наблюдение — единственная форма участия.

Будущие исследования должны быть направлены на разработку методов оценки не только предсказуемости задачи, но и «зрелости» модели — её способности адекватно реагировать на изменения в данных. Мудрые системы не борются с энтропией — они учатся дышать вместе с ней. Вопрос не в том, как создать идеальные данные, а в том, как создать системы, способные достойно стареть в несовершенном мире.

Оригинал статьи: https://arxiv.org/pdf/2604.14498.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-17 09:58