Искусственный интеллект предсказывает будущее: генерация реалистичных финансовых временных рядов

Автор: Денис Аветисян

Новая модель, объединяющая графовые нейронные сети и генеративные состязательные сети, позволяет создавать синтетические данные, неотличимые от реальных финансовых показателей.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Предложенная архитектура генеративных состязательных сетей (GAN) представляет собой инновационный подход к созданию реалистичных данных, основанный на взаимодействии двух нейронных сетей - генератора и дискриминатора - для достижения оптимального баланса между генерацией и оценкой. — Предложенная архитектура генеративных состязательных сетей (GAN) представляет собой инновационный подход к созданию реалистичных данных, основанный на взаимодействии двух нейронных сетей — генератора и дискриминатора — для достижения оптимального баланса между генерацией и оценкой.

В статье представлена модель Sig-Graph GAN, использующая подписи для захвата геометрических паттернов и временных зависимостей в финансовых временных рядах.

Генерация реалистичных синтетических данных для финансовых временных рядов представляет собой сложную задачу, особенно учитывая их нестационарность и сложность моделирования долгосрочных зависимостей. В данной работе, посвященной ‘A Generative Adversarial Graph Neural Network for Synthetic Time Series Data’, предложена новая модель Sig-Graph GAN, объединяющая графовые нейронные сети, LSTM и методы Signature Calculus для более точного воспроизведения статистических характеристик финансовых данных. Интеграция геометрических паттернов, извлекаемых с помощью графового представления, с авторегрессионными свойствами временных рядов позволяет модели генерировать данные, более близкие к реальным рыночным условиям. Сможет ли предложенный подход существенно улучшить качество моделей прогнозирования и снизить риски, связанные с недостаточной репрезентативностью синтетических данных?

Понимание Ландшафта Финансовых Временных Рядов

Финансовые временные ряды являются основой современной финансовой науки, представляя собой историческую динамику цен активов и других ключевых финансовых показателей. Эти ряды, включающие в себя данные о ценах акций, валютных курсах, процентных ставках и прочих индикаторах, позволяют анализировать прошлые тенденции и строить прогнозы относительно будущего поведения рынков. Изучение финансовых временных рядов необходимо для оценки рисков, разработки инвестиционных стратегий и управления финансовыми портфелями. $\sigma_t^2$ — дисперсия в момент времени t — является одним из важнейших параметров, определяющих волатильность, и ее анализ позволяет понять, насколько сильно изменяются цены активов со временем. Именно поэтому понимание закономерностей, лежащих в основе этих рядов, критически важно для принятия обоснованных финансовых решений.

Для финансовых временных рядов характерно явление, известное как кластеризация волатильности. Это означает, что периоды высокой волатильности, когда цены активов активно колеблются, как правило, сменяются другими периодами высокой волатильности, а периоды низкой волатильности, напротив, имеют тенденцию к продолжительности. Данное свойство не является случайным, и проявляется в том, что большие изменения цен с большей вероятностью последуют за большими изменениями, а малые изменения — за малыми. Это явление имеет важное значение для моделирования финансовых рисков и разработки эффективных стратегий управления портфелем, поскольку игнорирование кластеризации волатильности может привести к недооценке рисков в периоды турбулентности и переоценке в периоды затишья. $\sigma_t^2 = \alpha + \beta \sigma_{t-1}^2 + \gamma \epsilon_{t-1}^2$ — пример модели, учитывающей данную особенность.

Традиционные финансовые модели часто основываются на предположении о стационарности временных рядов, то есть о постоянстве их статистических свойств во времени. Однако, реальные финансовые данные, такие как цены акций или обменные курсы, редко удовлетворяют этому условию. Наблюдается тенденция к не стационарности — изменение среднего значения и дисперсии во времени, что приводит к смещенным оценкам параметров модели и, как следствие, к неточным прогнозам. Например, $R^2$ в регрессионном анализе может быть искусственно завышен, а стандартные ошибки недооценены, если не учитывать не стационарность. Использование моделей, не учитывающих эту особенность, может привести к ошибочным инвестиционным решениям и недооценке рисков, поскольку они не отражают реальную динамику финансовых рынков.

Ограничения Классических Моделей

Модель ARIMA, широко используемый метод прогнозирования временных рядов, требует, чтобы данные были стационарными. Стационарность подразумевает, что статистические свойства временного ряда, такие как среднее значение и дисперсия, не меняются во времени. Поскольку большинство реальных финансовых временных рядов нестационарны, для применения ARIMA необходимо проведение предварительной обработки данных, включающей, как правило, дифференцирование (вычисление разностей между последовательными значениями) для устранения трендов и сезонности, а также, возможно, применение других методов стабилизации дисперсии. Отсутствие стационарности может привести к ложным корреляциям и, как следствие, к неточным прогнозам.

Модель Блэка-Шоулза, являясь основой для ценообразования опционов, базируется на предположении о геометрическом броуновском движении (ГБД) базового актива. ГБД предполагает, что изменения цены актива случайны, непрерывны и подчиняются нормальному распределению. Однако, реальные финансовые рынки демонстрируют отклонения от этих предположений, включая скошенность и эксцесс распределения доходностей, а также кластеризацию волатильности. Эти отклонения приводят к неточностям в ценах опционов, рассчитанных с использованием модели Блэка-Шоулза, особенно в периоды рыночной нестабильности или при наличии значительных «хвостов» в распределении цен. В частности, ГБД не учитывает возможность «прыжков» цен, которые часто наблюдаются на финансовых рынках из-за неожиданных событий или новостей.

Традиционные модели прогнозирования, такие как ARIMA и Black-Scholes, часто демонстрируют ограниченную эффективность при работе с финансовыми временными рядами из-за их неспособности адекватно учитывать нелинейные зависимости и долгосрочные корреляции. Финансовые данные нередко характеризуются сложными взаимосвязями, выходящими за рамки линейных предположений, а также проявляют зависимости между значениями, отстоящими друг от друга на значительные промежутки времени. Неспособность моделей улавливать эти характеристики приводит к снижению точности прогнозов и, как следствие, к менее надежным результатам при принятии инвестиционных решений. Наличие нелинейностей и долгосрочных корреляций требует использования более сложных методов моделирования, способных учитывать эти факторы для повышения предсказательной силы.

Алгоритм построения графа видимости успешно применен для анализа динамики цен акций Standard and Poor’s 500 в период с 12 декабря 2017 года по 7 мая 2018 года.

Новый Подход: Представление Временных Рядов на Основе Графов

Методология, основанная на графах видимости, преобразует финансовые временные ряды в геометрическое представление, где каждое значение ряда соответствует узлу графа. Связи между узлами (рёбрами) устанавливаются на основе принципа видимости: два узла соединяются, если отрезок, соединяющий их, не пересекает никакие другие узлы ряда. Такое преобразование позволяет зафиксировать временные зависимости, поскольку порядок и наличие связей отражают изменения во временном ряду и взаимосвязь между различными моментами времени. В результате формируется граф, структура которого кодирует информацию о динамике временного ряда, предоставляя альтернативный способ анализа и моделирования финансовых данных.

Преобразование сигнатур (Signature Transformation) представляет собой метод, позволяющий кодировать информацию о форме и динамике временных рядов в виде последовательности чисел, называемых сигнатурами. Этот процесс основан на вычислении интегралов по различным путям на графике временного ряда, что позволяет захватить не только мгновенные значения, но и общую структуру и эволюцию данных. Полученные сигнатуры инвариантны к монотонным преобразованиям времени и масштаба, что делает их устойчивыми к различным искажениям данных. В контексте представления временных рядов в виде графов, преобразование сигнатур позволяет компактно представить геометрическую информацию, сохраняя при этом важные характеристики временной зависимости и формы сигнала. $\mathcal{S}(x) = \in t_0^T x(t) dt$ — пример базовой сигнатуры.

Для генерации реалистичных и разнообразных данных финансовых временных рядов используется Sig-Graph GAN, объединяющий преобразование временных рядов в граф видимости и последующее преобразование сигнатур. Результаты сравнительного анализа с базовыми моделями демонстрируют превосходство предложенного подхода, подтвержденное более низкими значениями метрики Earth Mover’s Distance (EMD) и эффекта плеча (leverage effect) на данных индексов IXIC, N225 и S&P 500. Низкие значения EMD указывают на более близкое соответствие генерируемых данных к реальным, а снижение эффекта плеча свидетельствует о более реалистичном моделировании волатильности.

Исследование абляции показало, что использование различных пользовательских функций потерь (KLD для Nikkei225 и MSE для S&P500) влияет на производительность Sig-Graph GAN.

Представленная работа демонстрирует стремление к созданию систем, способных генерировать реалистичные временные ряды, что требует глубокого понимания не только временных зависимостей, но и геометрической структуры данных. Как отмечал Линус Торвальдс: «Плохой дизайн — это когда что-то работает, но никто не знает почему». Sig-Graph GAN, объединяя графовые нейронные сети и вычисления сигнатур, пытается преодолеть эту проблему, создавая модели, в которых поведение системы определяется её структурой. Акцент на захвате геометрических паттернов и временных зависимостей позволяет создавать более правдоподобные синтетические данные, что особенно важно в финансовом моделировании, где даже незначительные отклонения могут привести к значительным последствиям. Структура, определяющая поведение, проявляется здесь в способности модели адекватно воспроизводить сложные финансовые процессы.

Куда же дальше?

Представленная работа, безусловно, демонстрирует элегантность подхода к синтезу временных рядов. Однако, за кажущейся сложностью модели Sig-Graph GAN, не стоит забывать об извечной проблеме — простота зачастую оказывается сильнее ухищрений. Если система держится на костылях из LSTM и signature calculus, значит, мы, возможно, переусложнили задачу. Модульность, при всей своей привлекательности, — иллюзия контроля, если не понимать контекст порождаемых данных. Следует задаться вопросом: действительно ли добавление геометрических характеристик радикально улучшает предсказательную силу, или же это лишь ещё один способ замаскировать фундаментальную непредсказуемость финансовых рынков?

Более глубокое исследование необходимо направить на понимание границ применимости данного подхода. Сможет ли модель адекватно обрабатывать данные, подверженные нелинейным зависимостям и структурными сдвигами? Или же она будет демонстрировать хрупкость перед лицом реальной турбулентности? Важно перейти от генерации «правдоподобных» рядов к созданию данных, позволяющих проверять гипотезы и выявлять скрытые закономерности.

Будущие исследования должны сосредоточиться на разработке более интерпретируемых моделей, позволяющих отслеживать вклад каждого компонента в процесс генерации. Необходимо также изучить возможность применения данного подхода к другим областям, где важна генерация синтетических данных, например, в медицине или климатологии. В конечном итоге, задача состоит не в том, чтобы создать идеальную модель, а в том, чтобы понять ограничения существующих и наметить путь к более осмысленному представлению о мире.

Оригинал статьи: https://arxiv.org/pdf/2605.22215.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-23 02:40