Когда простота бьет сложность: как обработка данных обгоняет нейросети в прогнозировании финансовых потоков

Автор: Денис Аветисян


Новое исследование показывает, что грамотная нормализация данных об инвестиционных потоках оказывается эффективнее сложных моделей машинного обучения, включая LSTM и вейвлеты.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
Многомасштабное кластерирование корреляций потоков инвесторов выявляет четкое разграничение между высокочастотным шумом и фундаментальным согласованием на более низких частотах, указывая на возможность фильтрации рыночного «белого шума» для выявления долгосрочных тенденций.
Многомасштабное кластерирование корреляций потоков инвесторов выявляет четкое разграничение между высокочастотным шумом и фундаментальным согласованием на более низких частотах, указывая на возможность фильтрации рыночного «белого шума» для выявления долгосрочных тенденций.

Простая нормализация рыночной капитализации потоков заказов инвесторов превосходит сложные алгоритмы, подчеркивая важность предобработки данных и достаточного отношения сигнал/шум.

Несмотря на стремительное развитие методов машинного обучения, условия, при которых сложные модели превосходят простые альтернативы, остаются малоизученными. В работе ‘The Limits of Complexity: Why Feature Engineering Beats Deep Learning in Investor Flow Prediction’ исследуется, способны ли передовые методы обработки сигналов и глубокого обучения извлекать прогностическую ценность из потоков заявок инвесторов, превосходя возможности простого конструирования признаков. Полученные результаты показывают, что простая нормализация потоков по рыночной капитализации демонстрирует значительно более высокую доходность, чем сложный конвейер, включающий независимый компонентный анализ, вейвлет-когерентность и сети LSTM. Не означает ли это, что в условиях низкой отношение сигнал/шум, качественная предварительная обработка данных имеет решающее значение для успешного прогнозирования на финансовых рынках?


Распознавание Рыночных Сигналов: Ландшафт Потоков Ордеров Инвесторов

Финансовые рынки представляют собой сложную систему, функционирование которой определяется коллективными действиями различных категорий инвесторов. Каждый тип участника — будь то институциональные инвесторы, иностранные фонды или частные лица — обладает уникальными поведенческими особенностями и мотивацией. Например, институциональные инвесторы часто руководствуются фундаментальным анализом и долгосрочными стратегиями, в то время как розничные инвесторы могут быть подвержены влиянию эмоций и краткосрочных рыночных тенденций. Понимание этих различий в поведении имеет решающее значение для анализа рыночной динамики, поскольку совокупность действий всех участников формирует ценообразование и волатильность. Исследование поведенческих особенностей различных групп инвесторов позволяет выявить закономерности и предсказывать будущие рыночные движения, что представляет интерес как для академических исследований, так и для практического применения в трейдинге и управлении инвестициями.

Понимание различий в поведении различных категорий инвесторов имеет решающее значение для прогнозирования динамики рынка. Иностранные инвесторы, часто именуемые “умными деньгами”, как правило, основывают свои решения на фундаментальном анализе и долгосрочных перспективах, что делает их действия более рациональными и предсказуемыми. В то же время, розничные инвесторы, поддающиеся влиянию новостного фона и эмоциональных факторов, склонны к импульсивным решениям и краткосрочным спекуляциям. Эти поведенческие различия создают уникальные паттерны в потоке ордеров, которые можно использовать для выявления потенциальных точек разворота и прогнозирования будущих ценовых движений. Игнорирование этих особенностей может привести к ошибочным прогнозам и упущенным возможностям, в то время как тщательный анализ позволяет более точно интерпретировать сигналы рынка и принимать обоснованные инвестиционные решения.

Анализ потока ордеров инвесторов, представляющего собой суммарную торговую активность различных групп участников рынка, открывает уникальную возможность для понимания динамики рыночных процессов. Однако, интерпретация этих данных требует предельной осторожности и тщательного разделения сложных взаимодействий между отдельными типами инвесторов. Поскольку действия институциональных и розничных инвесторов могут быть обусловлены различными факторами и мотивациями, простое суммирование объемов торгов может привести к искаженным выводам. Необходимо учитывать особенности поведения каждой группы, выявлять корреляции и причинно-следственные связи между их действиями, а также учитывать внешние факторы, влияющие на принятие инвестиционных решений. Только при таком подходе анализ потока ордеров позволяет получить ценную информацию о текущих тенденциях, потенциальных разворотах и скрытых настроениях на рынке.

Волновая когерентность между потоками иностранных и институциональных инвесторов увеличивается с масштабом, что свидетельствует о более тесной синхронизации на фундаментальных, а не на высокочастотных временных горизонтах.
Волновая когерентность между потоками иностранных и институциональных инвесторов увеличивается с масштабом, что свидетельствует о более тесной синхронизации на фундаментальных, а не на высокочастотных временных горизонтах.

Выявление Скрытых Факторов: ICA и Декомпозиция Рынка

Анализ независимых компонент (Independent Component Analysis, ICA) представляет собой эффективный метод декомпозиции потока ордеров инвесторов на составляющие его компоненты. Этот статистический подход позволяет выделить скрытые факторы, влияющие на рыночную активность, путем отделения статистически независимых сигналов от смешанных данных. В отличие от традиционных методов, таких как факторный анализ, ICA не требует предварительного знания о структуре данных и способен выявлять нелинейные зависимости, что делает его особенно полезным для анализа сложных финансовых рынков и определения базовых драйверов рыночных движений. Алгоритм ICA предполагает, что наблюдаемый поток ордеров является линейной комбинацией независимых исходных сигналов, и стремится восстановить эти сигналы, максимизируя их статистическую независимость.

Метод независимого компонентного анализа (ICA) позволяет выделить скрытые факторы, такие как макрориск, внутренняя динамика и обеспечение ликвидностью, которые отражают системные влияния и поведение инвесторов. Эти факторы представляют собой статистически независимые компоненты, составляющие общий поток ордеров инвесторов. Макрориск отражает воздействие макроэкономических показателей, внутренняя динамика — отношение инвесторов к внутренним экономическим условиям, а обеспечение ликвидностью — активность маркет-мейкеров и других участников, обеспечивающих возможность быстрого исполнения ордеров. Выделение этих компонентов позволяет анализировать вклад каждого фактора в общую динамику рынка, выходя за рамки поверхностных корреляций и позволяя оценить фундаментальные силы, определяющие рыночные движения.

Изоляция латентных факторов посредством анализа независимых компонент (ICA) позволяет перейти от наблюдения поверхностных корреляций между рыночными данными к пониманию фундаментальных сил, определяющих динамику рынка. Традиционные статистические методы часто выявляют взаимосвязи, которые являются следствием общих причин, но не раскрывают эти причины напрямую. ICA, напротив, стремится разложить сложный сигнал — в данном случае, поток ордеров инвесторов — на независимые компоненты, каждый из которых представляет собой отдельный фактор влияния. Анализ этих факторов, таких как макрориск, настроения инвесторов и обеспечение ликвидностью, позволяет определить истинные драйверы рыночных движений, а не просто констатировать наличие корреляций. Это, в свою очередь, обеспечивает более глубокое понимание рыночных процессов и потенциально улучшает точность прогнозирования.

Анализ независимых компонент (ICA) потоков инвестиций в Корее выявил три основных компонента, характеризующих временные ряды и вклад различных типов инвесторов в каждый из них.
Анализ независимых компонент (ICA) потоков инвестиций в Корее выявил три основных компонента, характеризующих временные ряды и вклад различных типов инвесторов в каждый из них.

Прогнозирующая Сила и Валидация Модели

Для прогнозирования доходности используется модель глубокого обучения, представляющая собой рекуррентную нейронную сеть LSTM с механизмом внимания. В качестве входных данных модель принимает нормализованный поток ордеров инвесторов (Investor Order Flow). Нормализация потока ордеров необходима для масштабирования сигнала и обеспечения сопоставимости данных между различными акциями. LSTM с вниманием предназначена для выявления сложных временных зависимостей в данных потока ордеров, что позволяет ей потенциально предсказывать будущие изменения доходности. Входные данные, представляющие собой нормализованный поток ордеров, обрабатываются LSTM-слоем, а затем механизм внимания фокусируется на наиболее значимых временных шагах для повышения точности прогноза.

Нормализация по рыночной капитализации является критически важным этапом предварительной обработки данных. Этот процесс заключается в делении объема ордерного потока инвесторов на рыночную капитализацию соответствующей акции. Цель нормализации — обеспечить сопоставимость сигналов между акциями с разной капитализацией, устраняя влияние абсолютного размера компании на величину сигнала. Без нормализации, крупные компании могут генерировать доминирующие сигналы, маскируя потенциально значимые, но менее масштабные сигналы от акций с меньшей капитализацией. Нормализация, таким образом, позволяет сравнивать относительную силу ордерного потока, делая сигналы масштабно-инвариантными и повышая эффективность анализа.

Оценка предсказательной способности модели осуществлялась посредством расчета отношения сигнал/шум (Signal-to-Noise Ratio), что позволяет оценить её способность извлекать значимую информацию из зашумленных рыночных данных. Результаты показали, что LSTM-модель продемонстрировала отрицательное значение коэффициента информации -1.36 , что указывает на низкую предсказательную силу. При этом, доля правильных прогнозов (Hit Rate) составила лишь 47.5%, что хуже, чем при случайном выборе. Данные показатели свидетельствуют о неэффективности данной модели для прогнозирования доходности на основе нормализованного потока ордеров инвесторов.

Стратегия импульса, использующая нормализованные по рыночной капитализации потоки заказов инвесторов, продемонстрировала значительно более высокую долю успешных прогнозов — 56.5%. Это означает, что из всех сделанных прогнозов, более половины оказались верными. Данный показатель существенно превосходит случайный уровень и указывает на эффективность использования нормализованных данных о потоках заказов в качестве сигнала для построения торговой стратегии, ориентированной на улавливание краткосрочных импульсов на рынке.

Нормализация по рыночной капитализации значительно улучшает прогностическую силу сигнала по сравнению с исходными данными и Z-нормализацией.
Нормализация по рыночной капитализации значительно улучшает прогностическую силу сигнала по сравнению с исходными данными и Z-нормализацией.

От Прогноза к Прибыли: Стратегия Импульса

Анализ потоков ордеров инвесторов позволил разработать простую, но эффективную стратегию импульса, подтверждающую практическую ценность разделения данных о торговой активности. Разделяя потоки ордеров, удалось выделить ключевые сигналы, указывающие на потенциальные возможности для прибыльных сделок. Применяя эту методику, происходит ранжирование акций на основе нормализованных к рыночной капитализации потоков, что позволяет выявлять активы с наибольшим потенциалом роста. Данный подход демонстрирует, как углубленное понимание структуры потоков ордеров может быть использовано для создания стратегий, превосходящих традиционные методы анализа и обеспечивающих значительную доходность.

Ранжирование акций на основе нормализованного к рыночной капитализации потока ордеров инвесторов позволяет выявлять потенциально прибыльные сделки. Данный подход предполагает, что акции с наиболее значительным притоком капитала, скорректированным на размер компании, демонстрируют повышенный спрос и, следовательно, имеют тенденцию к росту. Исследование показывает, что систематическое использование этой методики, заключающееся в покупке акций с высоким положительным потоком и продаже акций с высоким отрицательным потоком, приводит к существенному превосходству над альтернативными стратегиями. По сути, нормализация потоков ордеров позволяет отфильтровать шум, связанный с крупными компаниями, и сосредоточиться на реальных изменениях в интересе инвесторов к конкретным акциям, что является ключевым фактором для успешной торговли.

Результаты применения данной стратегии оказались впечатляющими: коэффициент Шарпа достиг значения 1.30, а совокупная доходность составила 272.6%. Это существенно превосходит показатели альтернативных подходов, таких как стратегия, основанная на независимом компонентном анализе (ICA), продемонстрировавшая убыток в -5.1%, и стратегия с использованием долговременной краткосрочной памяти (LSTM), характеризующаяся коэффициентом Шарпа менее нуля. Данные показатели свидетельствуют о высокой эффективности разработанного подхода и его потенциале для получения значительной прибыли, превосходящей традиционные методы анализа рынка.

Анализ показывает, что стратегии, основанные на данных и учитывающие динамику рыночных потоков, способны превосходить традиционные подходы к инвестированию. Исследование выявило скрытые сигналы в активности участников рынка, позволяющие выявлять перспективные возможности для торговли. В отличие от методов, основанных на исторических данных или прогнозировании, данный подход использует информацию о фактических операциях инвесторов, что обеспечивает более точную оценку рыночной конъюнктуры и, как следствие, более высокую доходность. Полученные результаты подтверждают, что глубокое понимание структуры рыночных потоков может стать ключом к разработке эффективных и прибыльных инвестиционных стратегий, существенно опережающих существующие аналоги.

Анализ устойчивости стратегии Simple Momentum по субпериодам и децилям рыночной капитализации демонстрирует её стабильную прибыльность в различных рыночных условиях.
Анализ устойчивости стратегии Simple Momentum по субпериодам и децилям рыночной капитализации демонстрирует её стабильную прибыльность в различных рыночных условиях.

В исследовании, посвященном прогнозированию потоков инвесторов, отчетливо прослеживается закономерность: простота обработки данных зачастую превосходит сложность алгоритмов. Авторы демонстрируют, что нормализация рыночной капитализации обеспечивает более точные прогнозы, чем сложные модели машинного обучения. Это напоминает о важности фундаментальных принципов, лежащих в основе любой системы. Как говорил Иммануил Кант: «Действуй так, чтобы максима твоя могла стать всеобщим законом». В контексте данной работы это означает, что надежность прогноза не зависит от сложности используемых методов, а определяется качеством и осмысленностью первичной обработки данных, достаточным для выявления значимого сигнала на фоне шума.

Куда Ведет Неопределенность?

Представленная работа, демонстрируя превосходство простой нормализации над сложными алгоритмами, лишь подчеркивает фундаментальную истину: системы не строятся, они вырастают. Попытки насильственно внедрить сложность в данные, игнорируя адекватную предварительную обработку, подобны попыткам построить дом на зыбучих песках. Хаос — это не сбой, это язык природы, и его необходимо понимать, а не подавлять.

Вместо бесконечной гонки за архитектурными инновациями, необходимо сосредоточиться на фундаментальных вопросах: что именно представляет собой «сигнал» в шумном потоке рыночных данных, и как его адекватно выделить? Гарантии — это договор с вероятностью, и иллюзия стабильности, столь привлекательная для исследователей, всего лишь хорошо кэшированная ошибка. Будущие исследования должны быть направлены на адаптивные методы предобработки, способные учитывать не стационарность рыночных процессов.

Попытки предсказать будущее, опираясь на сложные модели, обречены на провал, если не уделяется должного внимания качеству исходных данных. Необходимо признать, что не существует «волшебной таблетки» — лишь постоянный поиск баланса между сложностью и простотой, между моделированием и пониманием. И, возможно, самое важное — научиться принимать неопределенность как неотъемлемую часть любой финансовой системы.


Оригинал статьи: https://arxiv.org/pdf/2601.07131.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-13 08:28