Простота против сложности: LSTM превосходят Transformer в прогнозировании акций

Автор: Денис Аветисян


Новое исследование показывает, что классические LSTM-сети демонстрируют более стабильные и точные результаты в прогнозировании цен на акции, чем современные архитектуры на основе Transformer.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
На основе прогнозирования цены акций Microsoft (MSFT) установлено, что применение авторегрессионного подхода <span class="katex-eq" data-katex-display="false"> p(x_t | x_{t-1}, x_{t-2}, ...) </span> и обучения с подкреплением <span class="katex-eq" data-katex-display="false"> p(x_t | y_{t-1}, y_{t-2}, ...) </span> оказывает дифференцированное влияние на динамику стоимости портфеля, демонстрируя различные траектории роста капитала в зависимости от выбранной стратегии прогнозирования.
На основе прогнозирования цены акций Microsoft (MSFT) установлено, что применение авторегрессионного подхода p(x_t | x_{t-1}, x_{t-2}, ...) и обучения с подкреплением p(x_t | y_{t-1}, y_{t-2}, ...) оказывает дифференцированное влияние на динамику стоимости портфеля, демонстрируя различные траектории роста капитала в зависимости от выбранной стратегии прогнозирования.

В условиях ограниченного объема данных для финансовых рынков, стандартные LSTM-модели обеспечивают более надежное прогнозирование, чем сложные Transformer-архитектуры.

Несмотря на постоянное развитие моделей глубокого обучения, прогнозирование финансовых рынков остается сложной задачей из-за их нелинейности и волатильности. В работе ‘StockBot 2.0: Vanilla LSTMs Outperform Transformer-based Forecasting for Stock Prices’ представлена сравнительная оценка современных архитектур, включая трансформеры и LSTM, для прогнозирования цен акций. Полученные результаты показывают, что тщательно настроенная базовая LSTM-сеть демонстрирует превосходную точность и стабильность принятия торговых решений по сравнению с более сложными моделями, особенно при ограниченном объеме данных. Подтверждает ли это, что в задачах прогнозирования финансовых временных рядов архитектурные упрощения могут оказаться более эффективными, чем стремление к большей сложности?


Прогнозирование Рынка: Основа Анализа Временных Рядов

Прогнозирование фондового рынка представляет собой сложную задачу, в основе которой лежит анализ временных рядов. Этот подход позволяет выявлять закономерности и тенденции в исторических данных о ценах акций, объемах торгов и других ключевых показателях. Изучение этих временных рядов — это не просто констатация прошлого, но и попытка экстраполировать их в будущее, чтобы предсказать вероятные изменения стоимости активов. Эффективность прогнозирования напрямую зависит от способности алгоритмов распознавать сложные зависимости, учитывать сезонность, тренды и случайные колебания, присущие финансовым рынкам. Таким образом, анализ временных рядов является фундаментальным инструментом для инвесторов и трейдеров, стремящихся к принятию обоснованных решений и максимизации прибыли.

Точность прогнозов временных рядов оказывает непосредственное влияние на потенциальную финансовую выгоду, что делает применение надежных методологий абсолютно необходимым. Даже незначительное повышение точности может привести к существенному увеличению прибыли при торговле акциями или другими финансовыми инструментами. Неточные прогнозы, напротив, чреваты убытками и упущенными возможностями. Поэтому, разработка и использование сложных статистических моделей, алгоритмов машинного обучения и тщательный анализ данных — это не просто академический интерес, а жизненно важная необходимость для успешной торговли на финансовых рынках. В конечном итоге, инвестиции в совершенствование методов прогнозирования оправдываются, позволяя извлекать максимальную выгоду из динамично меняющейся конъюнктуры рынка.

Для любого анализа, направленного на прогнозирование динамики фондового рынка, первоочередным шагом является получение достоверных исторических данных. Такие платформы, как Yahoo Finance, предоставляют обширные массивы информации о ценах акций, объемах торгов и других ключевых показателях, необходимых для построения эффективных моделей прогнозирования. Именно эта информация служит основой для выявления трендов, сезонности и других закономерностей, которые могут быть использованы для предсказания будущих изменений цен. Без доступа к надежным и актуальным данным, любые попытки прогнозирования обречены на неудачу, поскольку модели лишаются возможности обучаться на реальных рыночных условиях и адекватно реагировать на изменения.

Сравнение прогнозирования цены акций AAPL на следующий день показывает, что использование авторегрессионных моделей и обучения с учителем позволяет прогнозировать как цену акций, так и динамику стоимости портфеля.
Сравнение прогнозирования цены акций AAPL на следующий день показывает, что использование авторегрессионных моделей и обучения с учителем позволяет прогнозировать как цену акций, так и динамику стоимости портфеля.

Подготовка Данных к Прогнозированию: От Исходных Значений к Входным Параметрам Модели

Скорректированная цена закрытия (Adjusted Closing Price) является основным входным параметром для прогнозирования временных рядов, поскольку она представляет собой ключевой сигнал, отражающий изменения стоимости актива с учетом дивидендов, сплитов и других корпоративных действий. Использование скорректированной цены позволяет избежать искажений, связанных с этими событиями, и обеспечивает более точную оценку динамики цены. В отличие от обычной цены закрытия, скорректированная цена обеспечивает последовательность данных во времени, что критически важно для корректной работы алгоритмов машинного обучения, используемых для прогнозирования.

Для обеспечения стабильности модели и предотвращения утечки данных применяется Z-нормализация (Z-score Scaling). Этот метод нормализации преобразует данные таким образом, чтобы они имели среднее значение 0 и стандартное отклонение 1. Формула для расчета Z-оценки для каждой точки данных z = (x - \mu) / \sigma , где x — исходное значение, μ — среднее значение выборки, а σ — стандартное отклонение выборки. Z-нормализация позволяет избежать доминирования признаков с большими значениями и улучшает сходимость алгоритмов машинного обучения, особенно градиентных методов, а также делает модель менее чувствительной к масштабу исходных данных.

Для преобразования непрерывного временного ряда в задачу контролируемого обучения применяется метод скользящего окна. Этот подход заключается в создании последовательностей данных, где каждое окно представляет собой набор значений временного ряда, используемых в качестве входных признаков для предсказания следующего значения. Размер окна определяет длину последовательности, а шаг (stride) определяет, насколько сдвигается окно при создании новых последовательностей. Например, при размере окна равном 10 и шаге равном 1, создается последовательность из 10 значений, затем окно сдвигается на одно значение и создается следующая последовательность, и так далее. В результате, исходный временной ряд разбивается на множество пар: «последовательность входных данных» — «следующее значение», которые и используются для обучения модели.

Сравнение прогнозов стоимости акций AAPL на десять дней вперед показывает, что использование подхода, основанного на авторегрессии, и обучение с учителем влияет на динамику портфеля, причем последний обеспечивает более стабильную и потенциально высокую доходность.
Сравнение прогнозов стоимости акций AAPL на десять дней вперед показывает, что использование подхода, основанного на авторегрессии, и обучение с учителем влияет на динамику портфеля, причем последний обеспечивает более стабильную и потенциально высокую доходность.

Архитектура Transformer: Улавливание Временных Зависимостей

Архитектура Transformer, использующая механизм внимания (Attention Mechanism), в настоящее время является доминирующим подходом в задачах последовательного моделирования. В отличие от рекуррентных нейронных сетей (RNN), Transformer позволяет обрабатывать всю входную последовательность параллельно, что значительно ускоряет обучение. Механизм внимания позволяет модели взвешивать вклад каждого элемента последовательности при формировании представления, эффективно улавливая зависимости между элементами, даже на больших расстояниях. Это достигается путем вычисления весов внимания, которые определяют, насколько сильно каждый элемент последовательности должен влиять на выход. Изначально разработанная для задач машинного перевода, архитектура Transformer успешно применяется в широком спектре задач, включая обработку естественного языка, компьютерное зрение и анализ временных рядов.

Механизм внимания в архитектуре Transformer позволяет модели динамически оценивать значимость различных элементов входной последовательности при формировании прогнозов. В отличие от рекуррентных сетей, где информация последовательно передается и может ослабевать при обработке длинных последовательностей, механизм внимания предоставляет прямой доступ ко всем элементам входной последовательности. Веса внимания, вычисляемые для каждого элемента, определяют, насколько сильно данный элемент влияет на выходные данные. Это позволяет модели эффективно улавливать долгосрочные зависимости, поскольку информация из удаленных элементов последовательности может быть непосредственно использована для принятия решений, без потери информации, свойственной традиционным рекуррентным архитектурам.

Несмотря на широкую популярность архитектур Transformer, наше исследование показало, что стандартная LSTM (Long Short-Term Memory) последовательно превосходит более сложные модели, основанные на механизмах внимания и сверточных сетях, в задачах прогнозирования цен акций. В рамках платформы StockBot, LSTM демонстрирует сопоставимую точность прогнозирования, но при этом обеспечивает более стабильное поведение в процессе автоматической торговли, что подтверждает ее эффективность в реальных финансовых приложениях. Полученные результаты свидетельствуют о том, что для конкретной задачи прогнозирования финансовых временных рядов, более простая архитектура LSTM может быть предпочтительнее, несмотря на теоретические преимущества Transformer в обработке длинных последовательностей.

Десятидневный прогноз для акций MSFT показывает, что использование авторегрессионных прогнозов и прогнозов с учителем приводит к различной динамике стоимости портфеля, при этом авторегрессионный подход демонстрирует предсказуемость цен, а подход с учителем - более агрессивную динамику.
Десятидневный прогноз для акций MSFT показывает, что использование авторегрессионных прогнозов и прогнозов с учителем приводит к различной динамике стоимости портфеля, при этом авторегрессионный подход демонстрирует предсказуемость цен, а подход с учителем — более агрессивную динамику.

Оценка Эффективности: Симуляция Торговой Стратегии

StockBot представляет собой всестороннюю платформу для оценки моделей прогнозирования, осуществляя симуляцию торговой стратегии на основе полученных предсказаний. В рамках этой системы, прогнозы, сгенерированные различными моделями, используются для принятия виртуальных решений о покупке и продаже активов, позволяя оценить их прибыльность и устойчивость в динамичных рыночных условиях. Этот подход позволяет не просто измерять точность прогнозов с помощью метрик, таких как RMSE, но и напрямую оценивать, насколько хорошо модель способна генерировать положительные результаты в реальной торговой среде, предоставляя более практичную и полезную оценку ее эффективности.

В рамках StockBot для генерации прогнозов используются два ключевых подхода: авторегрессионное и обучение с подкреплением (teacher-forcing). Авторегрессионное прогнозирование предполагает использование предыдущих предсказаний модели в качестве входных данных для текущего прогноза, создавая замкнутый цикл обратной связи. В то же время, обучение с подкреплением использует фактические значения прошлых периодов для обучения модели, что позволяет избежать накопления ошибок, характерных для авторегрессионного подхода. Комбинирование этих двух методов в StockBot позволяет всесторонне оценить эффективность различных моделей прогнозирования, выявляя их сильные и слабые стороны в различных рыночных условиях и обеспечивая более надежную оценку их потенциальной прибыльности.

Для оценки точности прогнозирования использовалась метрика среднеквадратичной ошибки (RMSE). Результаты показывают, что модель LSTM демонстрирует наименьшие значения RMSE как в режиме авторегрессии, так и при использовании подхода teacher forcing. В частности, LSTM превосходит другие модели и в задачах долгосрочного прогнозирования, достигая минимального RMSE при прогнозировании на десять дней вперед, что подтверждается данными, представленными в таблице 3. Это свидетельствует о высокой эффективности LSTM в задачах финансового прогнозирования и её способности к точному предсказанию динамики цен на активы.

Исследование демонстрирует, что архитектурная простота может превосходить сложность в задачах прогнозирования. В контексте финансовых временных рядов, где данные часто ограничены, стандартная LSTM-модель демонстрирует стабильную эффективность, превосходя более сложные трансформерные архитектуры. Это подтверждает, что ключевым фактором успеха является не только вычислительная мощность, но и способность модели обобщать данные при недостатке информации. К. Шеннон однажды заметил: «Теория коммуникации, по сути, — это поиск наиболее эффективных способов передачи информации». Аналогично, в данном исследовании наиболее эффективным оказался простой и понятный подход к прогнозированию, что подчеркивает важность элегантности и математической чистоты в построении алгоритмов.

Что дальше?

Представленное исследование, демонстрирующее превосходство «ванильной» LSTM над архитектурами, основанными на трансформерах, в задачах прогнозирования цен акций, поднимает фундаментальный вопрос о сложности и её оправданности. Зачастую, в погоне за архитектурной элегантностью, упускается из виду простая истина: устойчивость и предсказуемость алгоритма ценнее, чем его теоретическая способность моделировать бесконечное множество нюансов. Особенно это актуально в условиях ограниченных данных, где переобучение становится более вероятным, чем реальное извлечение полезного сигнала.

Очевидным направлением дальнейших исследований является углубленное изучение причин, по которым LSTM демонстрируют такую устойчивость в финансовых временных рядах. Необходим более строгий математический анализ, позволяющий выявить границы применимости данной архитектуры и определить, при каких условиях её преимущества становятся наиболее выраженными. Упор следует сделать на доказательстве корректности, а не на эмпирической проверке на тестовых данных.

Вместе с тем, отказ от трансформеров представляется преждевременным. Вероятно, проблема заключается не в самой архитектуре, а в её некорректной адаптации к специфике финансовых данных. Перспективным представляется исследование гибридных моделей, сочетающих в себе преимущества LSTM и трансформеров, но с акцентом на математическую строгость и доказанную устойчивость. Истина, как всегда, кроется в балансе между сложностью и простотой.


Оригинал статьи: https://arxiv.org/pdf/2601.00197.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-05 06:46