Оптимизатор как скрытый фактор в прогнозировании финансовых рынков

Автор: Денис Аветисян

Новое исследование показывает, что выбор алгоритма оптимизации может влиять на структуру и поведение моделей прогнозирования финансовых временных рядов, даже при одинаковой точности.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Различные алгоритмы оптимизации демонстрируют отличающиеся уровни чувствительности, проявляющиеся в импульсных реакциях, что указывает на расхождение в их способности адаптироваться к изменениям во времени <span class="katex-eq" data-katex-display="false">t</span>. — Различные алгоритмы оптимизации демонстрируют отличающиеся уровни чувствительности, проявляющиеся в импульсных реакциях, что указывает на расхождение в их способности адаптироваться к изменениям во времени $t$ .

Различные оптимизаторы приводят к функционально отличающимся моделям с эквивалентной прогностической способностью, что влияет на стратегию управления портфелем и требует новых метрик оценки.

В задачах прогнозирования финансовых временных рядов часто наблюдается, что различные модели достигают сопоставимой точности, скрывая существенные различия в их внутренней работе. Настоящее исследование, озаглавленное ‘Same Error, Different Function: The Optimizer as an Implicit Prior in Financial Time Series’, посвящено анализу влияния выбора оптимизатора на характеристики обученных моделей, используемых для прогнозирования волатильности акций S&P 500. Показано, что при одинаковой ошибке прогнозирования, разные оптимизаторы формируют качественно отличающиеся функциональные зависимости и временные корреляции, что существенно влияет на показатели портфельных стратегий и их оборачиваемость. Не является ли оценка моделей исключительно по скалярной функции потерь недостаточной, и не требует ли адекватный анализ учета функциональных свойств и последствий принимаемых решений?

Иллюзия Точности в Финансовом Прогнозировании

Традиционные методы прогнозирования волатильности финансовых рынков часто опираются на метрики, такие как среднеквадратичная ошибка нормализованная (NMSE), создавая иллюзию высокой точности моделей. Несмотря на кажущуюся объективность этих показателей, они могут быть обманчивы, поскольку не учитывают присущую финансовым временным рядам сложность и шум. Модели с низким значением NMSE могут демонстрировать хорошие результаты на исторических данных, но не способны предсказывать будущую волатильность, особенно в периоды рыночной нестабильности. Это происходит из-за того, что NMSE оценивает только соответствие модели прошлым данным, а не её способность к обобщению и адаптации к новым условиям. Таким образом, полагаться исключительно на NMSE для оценки эффективности модели может привести к переоценке её предсказательной силы и, как следствие, к принятию неверных инвестиционных решений.

Финансовые временные ряды по своей природе характеризуются высокой степенью шума и сложности, что существенно затрудняет отделение реальной прогностической способности модели от случайных колебаний. Эта внутренняя непредсказуемость обусловлена множеством взаимодействующих факторов — от макроэкономических тенденций и геополитических событий до психологических аспектов поведения инвесторов. В результате, даже самые совершенные модели часто оказываются неспособными надежно предсказывать будущие изменения цен, поскольку значительная часть наблюдаемых колебаний является просто результатом случайного шума. Попытки выявить закономерности в этих хаотичных данных часто приводят к ложным позитивным результатам, когда модель успешно предсказывает прошлое, но терпит неудачу в прогнозировании будущего. Таким образом, необходимо подходить к оценке прогностической силы финансовых моделей с большой осторожностью, осознавая ограниченность возможностей предсказания в условиях высокой неопределенности.

Анализ эффективности финансовых стратегий часто страдает от так называемого эффекта выжившего. Это происходит, когда в выборку для анализа включаются данные только по тем стратегиям, которые успешно функционируют в настоящий момент, игнорируя данные по тем, которые провалились или прекратили свое существование. В результате, оценки эффективности оказываются существенно завышенными, поскольку не учитывают полный спектр рисков и неудач. Искажение, вызванное исключением убыточных стратегий, создает иллюзию большей предсказуемости и надежности, чем есть на самом деле. Таким образом, для получения объективной картины необходимо учитывать все стратегии, включая те, что потерпели неудачу, что позволяет более реалистично оценивать истинную производительность и риски в финансовом прогнозировании.

Анализ границы Шарпа-Оборота по квинтилям волатильности показывает, что при схожих значениях коэффициента Шарпа, различные модели волатильности существенно различаются по уровню торговой активности, что указывает на возможность получения заметно отличающегося поведения на рынке при использовании метрически эквивалентных предикторов.

За Пределами Потерь: Раскрытие Функциональной Дивергенции

Модели машинного обучения могут демонстрировать сопоставимую производительность (предиктивную эквивалентность) при обучении принципиально различающимся отображениям входных данных в выходные. Это означает, что две модели, решающие одну и ту же задачу с одинаковой точностью, могут использовать совершенно разные внутренние представления данных и, соответственно, различные стратегии для получения предсказаний. Например, одна модель может полагаться на сложные взаимосвязи между признаками, в то время как другая может использовать лишь небольшое их подмножество или упрощенные линейные комбинации. Такое явление указывает на то, что достижение низкой ошибки не обязательно подразумевает освоение истинных закономерностей, лежащих в основе данных, и требует анализа внутренних механизмов работы моделей для выявления потенциальных проблем с обобщающей способностью и устойчивостью.

Низкое значение функции потерь, достигаемое моделью машинного обучения, не является достаточным условием для подтверждения её осмысленного и устойчивого понимания данных. Модель может демонстрировать высокую точность предсказаний, используя различные и даже контринтуитивные стратегии обработки входных данных. Это означает, что две модели с одинаковой производительностью могут существенно различаться в своих внутренних представлениях и чувствительности к отдельным признакам, что может привести к различным результатам при незначительных изменениях во входных данных или при работе с данными, отличными от тренировочного набора. Таким образом, оценка только по функции потерь не позволяет определить, действительно ли модель изучила полезные закономерности или просто «выучила» тренировочные примеры.

Анализ импульсной характеристики и значения SHAP предоставляют методы визуализации и количественной оценки различий в поведении моделей. Анализ импульсной характеристики позволяет определить, как модель реагирует на небольшие изменения во входных данных, выявляя чувствительность к конкретным признакам и потенциальные нелинейности. Значения SHAP (SHapley Additive exPlanations) вычисляют вклад каждого признака в конкретное предсказание, позволяя оценить, какие признаки наиболее важны для принятия решения моделью. Комбинированное использование этих методов позволяет не только выявить расхождения в логике работы моделей с сопоставимой точностью, но и предоставить интерпретируемые данные о том, как каждая модель использует входные данные для формирования выходных данных, что важно для понимания и отладки моделей машинного обучения.

Анализ важности признаков показывает, что оптимизаторы Adam и Muon расходятся по влиянию признаков <span class="katex-eq" data-katex-display="false">lagst_{-1}t_{-1}</span> (признак 99) и <span class="katex-eq" data-katex-display="false">t_{-{100}}</span> (признак 0) на процесс обучения. — Анализ важности признаков показывает, что оптимизаторы Adam и Muon расходятся по влиянию признаков $lagst_{-1}t_{-1}$ (признак 99) и $t_{-{100}}$ (признак 0) на процесс обучения.

Роль Оптимизации и Архитектуры Модели

Различные архитектуры нейронных сетей, такие как свёрточные нейронные сети (CNN), рекуррентные нейронные сети с долгой краткосрочной памятью (LSTM), трансформеры и многослойные перцептроны (MLP), используют различные алгоритмы оптимизации. Наиболее распространены стохастический градиентный спуск (SGD), адаптивный моментный оценщик (Adam) и Muon. Выбор алгоритма оптимизации зависит от конкретной архитектуры сети и характеристик решаемой задачи. Например, Adam часто демонстрирует более быструю сходимость на сложных задачах, в то время как SGD может быть предпочтительнее для задач, требующих высокой точности и устойчивости к переобучению. Muon представляет собой более новый алгоритм, направленный на повышение эффективности оптимизации в задачах с разреженными данными.

Алгоритмы оптимизации, такие как стохастический градиентный спуск (SGD), Adam и Muon, оказывают влияние не только на скорость сходимости процесса обучения нейронной сети, но и на финальное представление данных, сформированное в процессе. Различные алгоритмы оптимизации могут приводить к различным локальным минимумам в пространстве параметров, что в итоге формирует отличные друг от друга веса модели. Это приводит к функциональной дивергенции, когда модели, обученные на одних и тех же данных, но с использованием разных оптимизаторов, демонстрируют различия в производительности и обобщающей способности, особенно в задачах, чувствительных к деталям представления данных и параметрам модели. Таким образом, выбор алгоритма оптимизации является критически важным для достижения желаемого результата и минимизации систематических ошибок.

Взаимодействие между архитектурой нейронной сети и используемым алгоритмом оптимизации оказывает существенное влияние на предсказательную способность модели и ее внутренние смещения. Различные архитектуры — сверточные нейронные сети (CNN), рекуррентные нейронные сети (LSTM), трансформеры, многослойные персептроны (MLP) — демонстрируют разную чувствительность к алгоритмам оптимизации, таким как стохастический градиентный спуск (SGD), Adam и Muon. Выбор алгоритма оптимизации влияет на скорость сходимости и на конечные веса модели, что, в свою очередь, определяет, какие признаки будут более ярко выражены в полученном представлении данных. Таким образом, понимание этого взаимодействия необходимо для анализа предвзятости модели и интерпретации ее результатов, а также для разработки стратегий смягчения нежелательных эффектов смещения.

Анализ импульсной характеристики сверточной нейронной сети показывает, что оптимизаторы, такие как Adam и Muon (синий/красный), формируют сложный нелинейный механизм затухания, в то время как SGD (зеленый) приводит к принципиально иной функциональной интерпретации данных, при этом все модели достигают сопоставимой предсказательной точности.

Практические Последствия для Управления Портфелем

Оценка волатильности является краеугольным камнем управления рисками в финансовой сфере, и одним из наиболее распространенных методов для ее определения выступает оценка Гармана-Класса. Данный подход, основанный на внутридневных ценах, позволяет получить более точную оценку волатильности по сравнению с использованием только дневных цен закрытия. Волатильность, определяемая с помощью оценки Гармана-Класса, служит ключевым входным параметром для различных моделей ценообразования активов и расчета показателей риска, таких как стандартное отклонение и Value-at-Risk. Точность оценки волатильности напрямую влияет на эффективность стратегий управления портфелем и оптимизации рисков, что делает оценку Гармана-Класса незаменимым инструментом для финансовых аналитиков и управляющих активами. $\sigma^2 = \frac{1}{T} \sum_{t=1}^{T} (p_t - p_{t-1})^2$ — базовая формула, лежащая в основе оценки, демонстрирует ее простоту и эффективность.

Ключевые показатели эффективности портфеля, такие как оборачиваемость активов и коэффициент Шарпа, напрямую зависят от точности прогнозов волатильности. Оборачиваемость, отражающая частоту сделок, а коэффициент Шарпа, измеряющий доходность с учетом риска, требуют надежной оценки колебаний цен активов. Неточные прогнозы волатильности могут привести к неоптимальным решениям по управлению портфелем: завышенная оценка — к излишне консервативной стратегии и упущенной выгоде, заниженная — к неоправданному риску и потенциальным потерям. Поэтому, повышение точности прогнозирования волатильности является критически важным для достижения стабильной и высокой доходности инвестиционного портфеля, а также для минимизации рисков.

Ансамблевое обучение представляет собой перспективный подход к снижению рисков, связанных с расхождением в функциональности различных моделей прогнозирования волатильности. Комбинируя прогнозы, полученные от разнообразных алгоритмов, можно добиться более устойчивых и надежных результатов. Однако, успешное применение ансамблевых методов требует тщательного анализа и учета внутренних смещений, присущих каждой отдельной модели. Некорректная оценка и игнорирование этих смещений может привести к усилению ошибок и ухудшению общей производительности ансамбля, нивелируя потенциальные преимущества от объединения моделей. Таким образом, критически важным является не только выбор разнообразных моделей, но и понимание их индивидуальных особенностей и предвзятостей для построения действительно эффективного и надежного ансамблевого прогноза.

Несмотря на достижение сопоставимой среднеквадратичной ошибки прогнозирования (NMSE) в 0.5730, что превосходит базовый метод наименьших квадратов (OLS) с результатом 0.5751, различные модели демонстрируют существенные различия в торговом поведении. Исследования показывают, что частота обновления портфеля — показатель активности торговли — может отличаться в три раза между различными оптимизаторами, даже при сопоставимых значениях коэффициента Шарпа, характеризующего доходность с учетом риска. Это указывает на то, что модели с одинаковой общей точностью прогнозирования волатильности могут приводить к существенно отличающимся стратегиям управления портфелем, что требует внимательного анализа не только точности прогноза, но и особенностей поведения каждой модели при принятии инвестиционных решений.

Анализ волатильности показывает, что портфели, сформированные на основе прогнозируемой волатильности (квантили Q1, Q3 и Q5), демонстрируют шестимесячную оборачиваемость, указывающую на динамику рынка.

К Надежному и Интерпретируемому Прогнозированию

В будущем исследования должны быть сосредоточены на разработке метрик, способных улавливать качественные различия между моделями прогнозирования, отходя от простой минимизации потерь. Традиционные метрики часто не отражают нюансы поведения моделей в сложных рыночных условиях, упуская из виду, например, устойчивость к шуму или способность к обобщению. Разработка новых показателей, учитывающих внутреннюю структуру моделей, их чувствительность к изменениям входных данных и способность адаптироваться к непредсказуемым событиям, позволит более точно оценивать их надежность и интерпретируемость. Это, в свою очередь, откроет путь к созданию более устойчивых и эффективных систем прогнозирования, способных не только предсказывать, но и объяснять свои решения.

Исследование взаимосвязи между внутренним представлением модели и её устойчивостью к рыночным шокам представляется крайне важным. Анализ показывает, что способ, которым модель кодирует и структурирует информацию о финансовых данных, напрямую влияет на её способность адаптироваться к неожиданным изменениям. Модели, обладающие более компактными и обобщенными внутренними представлениями, как правило, демонстрируют повышенную устойчивость к непредсказуемым колебаниям рынка. Изучение этих внутренних механизмов позволяет выявить признаки потенциальной хрупкости и разработать стратегии для повышения надежности и предсказуемости моделей прогнозирования, что особенно актуально в условиях высокой волатильности финансовых рынков. Понимание того, как модель “видит” и интерпретирует данные, открывает возможности для создания более гибких и адаптивных систем, способных эффективно функционировать даже в стрессовых ситуациях.

Исследования показывают, что устойчивость прогностических моделей тесно связана с понятием «края стабильности» — состояния, когда незначительные возмущения могут привести к существенным изменениям в поведении модели. Изучение влияния этого состояния на функциональную дивергенцию — расхождение в прогнозах при различных входных данных — может открыть новые пути к созданию более устойчивых моделей. Анализ показывает, что модели, находящиеся вблизи «края стабильности», склонны к большей чувствительности к рыночным шокам и, как следствие, к более резким изменениям в прогнозах. Понимание механизмов, лежащих в основе этой связи, позволит разработать стратегии для стабилизации моделей, например, путем регулирования параметров обучения или применения методов регуляризации, что в конечном итоге приведет к повышению надежности прогнозов и снижению рисков, связанных с принятием решений на их основе.

Исследования показали, что модели, обученные с использованием оптимизатора Adam, демонстрируют значительно более высокие значения максимального собственного числа матрицы Гессе ( $λ_{max} = 111.5$ ) по сравнению с моделями, обученными методом стохастического градиентного спуска (SGD), где $λ_{max} = 63.1$ . Этот результат указывает на то, что Adam стремится к более «острым» решениям в пространстве параметров, характеризующимся высокой чувствительностью к незначительным изменениям входных данных. В то время как SGD обычно находит более «плоские» минимумы, обеспечивающие большую устойчивость к возмущениям, Adam, хотя и обеспечивает более быструю сходимость, может приводить к моделям, более склонным к колебаниям и нестабильности, особенно при столкновении с непредсказуемыми рыночными условиями. Таким образом, разница в максимальных собственных числах Гессе служит индикатором потенциальной волатильности и уязвимости моделей, обученных различными методами оптимизации.

Обучение MLP с использованием SGD приводит к увеличению резкости до достижения ею предела стабильности, что демонстрирует поведение на границе стабильности, характерное для финансовых нейронных сетей и определяемое как отслеживание предела стабильности <span class="katex-eq" data-katex-display="false">\lambda_{max}</span>. — Обучение MLP с использованием SGD приводит к увеличению резкости до достижения ею предела стабильности, что демонстрирует поведение на границе стабильности, характерное для финансовых нейронных сетей и определяемое как отслеживание предела стабильности $\lambda_{max}$ .

Исследование показывает, что выбор оптимизатора в прогнозировании финансовых временных рядов может привести к функционально различным моделям, демонстрирующим эквивалентную прогностическую способность. Этот аспект подчеркивает необходимость оценки за пределами простых функций потерь, поскольку разные оптимизаторы формируют неявные априорные предположения. Как отмечал Андрей Колмогоров: «Вероятность — это разум, выраженный в числах». В контексте данной работы, это означает, что каждый оптимизатор, по сути, выражает определенную «веру» в структуру данных, что влияет на получаемые результаты и, как следствие, на показатели, такие как оборачиваемость портфеля. Подобно тому, как в математике выбор аксиом определяет всю систему, выбор оптимизатора определяет траекторию модели, формируя её устойчивость к хаосу и энтропии.

Куда же дальше?

Представленная работа обнажает любопытную истину: оптимизатор в задаче прогнозирования финансовых временных рядов — это не просто инструмент, а своего рода неявное предположение, формирующее функционально различные модели, обладающие, тем не менее, эквивалентной предсказательной силой. Это напоминает о саде: посадить можно любые семена, но вырастет не то, что ожидалось, а то, к чему больше всего подходит почва — в данном случае, выбор алгоритма оптимизации. Игнорирование этой функциональной дивергенции чревато, особенно при принятии решений, требующих учета не только доходности, но и сопутствующих затрат, таких как частота пересмотра портфеля.

Очевидно, что метрики, ограничивающиеся простой минимизацией ошибки, оказываются недостаточными. Необходимо развивать инструменты оценки, способные учитывать «скрытую» структуру модели, ее склонность к определенным видам ошибок и, как следствие, ее влияние на более широкие аспекты принятия решений. Вместо того, чтобы стремиться к «лучшему» оптимизатору, следует признать, что каждый из них формирует уникальный «ландшафт» модели, и выбирать тот, который наиболее соответствует конкретным целям и ограничениям.

Будущие исследования, вероятно, сосредоточатся на разработке таких комплексных метрик, учитывающих не только точность прогнозирования, но и устойчивость модели к различным сценариям, ее способность «прощать» ошибки в данных и, самое главное, ее влияние на долгосрочные последствия принятия решений. Ведь система — это не машина, которую можно построить, а сад, который нужно выращивать, постоянно адаптируясь к меняющимся условиям.

Оригинал статьи: https://arxiv.org/pdf/2603.02620.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-04 07:00