Предсказание судьбы ордера: новая модель для биржевой торговли

Автор: Денис Аветисян


Исследователи разработали KANFormer — инновационную систему, позволяющую оценивать вероятность исполнения лимитных ордеров на биржевых площадках.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Архитектура KANFormer, использующая свёртки с расширением (Dilated Causal Convolution), обрабатывает последовательности снимков состояния окружающей среды $𝐗_{LOB} \in \mathbb{R}^{L\times(4n+4)}$, генерируя их векторное представление, а также кодирует действия агента $𝐀_{actions} \in \mathbb{R}^{L\times(d+5)}$ в векторное пространство, после чего, объединяя эти представления с информацией о позиции в очереди, предсказывает плотность и функцию выживания.
Архитектура KANFormer, использующая свёртки с расширением (Dilated Causal Convolution), обрабатывает последовательности снимков состояния окружающей среды $𝐗_{LOB} \in \mathbb{R}^{L\times(4n+4)}$, генерируя их векторное представление, а также кодирует действия агента $𝐀_{actions} \in \mathbb{R}^{L\times(d+5)}$ в векторное пространство, после чего, объединяя эти представления с информацией о позиции в очереди, предсказывает плотность и функцию выживания.

Модель KANFormer использует глубокое обучение, сети Kolmogorov-Arnold и анализ выживаемости для точного прогнозирования вероятности исполнения и времени исполнения лимитных ордеров в книге заявок.

Прогнозирование вероятности исполнения лимитных ордеров остается сложной задачей в связи с динамичностью рыночной микроструктуры. В данной работе, ‘KANFormer for Predicting Fill Probabilities via Survival Analysis in Limit Order Books’, представлена новая модель глубокого обучения KANFormer, объединяющая свёрточные сети, трансформеры и сети Kolmogorov-Arnold для повышения точности прогнозирования времени исполнения ордеров. Модель учитывает как рыночные данные, так и действия участников, используя методы анализа выживаемости для более эффективного улавливания паттернов, влияющих на вероятность исполнения. Способна ли данная архитектура обеспечить более надежные и интерпретируемые прогнозы, способствующие оптимизации стратегий торговли на финансовых рынках?


Время исполнения ордера: вызов для традиционных моделей

Эффективное прогнозирование времени исполнения ордера — ключевой фактор для достижения оптимальных результатов при торговле, однако существующие традиционные методы сталкиваются со значительными трудностями при анализе сложности книги лимитных ордеров. Книга лимитных ордеров представляет собой динамичную структуру, где цены и объемы постоянно меняются под влиянием множества факторов, включая действия различных участников рынка. Традиционные статистические модели часто не способны адекватно учесть все эти взаимосвязи, что приводит к неточным прогнозам и, как следствие, к упущенным возможностям или убыткам. Точное определение времени исполнения позволяет трейдерам оптимизировать стратегии, минимизировать проскальзывание и максимизировать прибыль, поэтому поиск новых, более совершенных методов прогнозирования остается актуальной задачей в области финансовых технологий.

Проблема цензурирования данных в контексте прогнозирования времени исполнения ордера представляет собой серьезную сложность для стандартных статистических моделей. Суть явления заключается в том, что значительная часть ордеров не исполняется в течение наблюдаемого периода, что создает “усеченные” данные. Обычные регрессионные методы, не учитывающие эту особенность, могут давать смещенные оценки и неверные прогнозы. Это связано с тем, что они рассматривают только исполненные ордера, игнорируя информацию о тех, которые остались неисполненными, хотя последняя может содержать ценные сведения о рыночных условиях и намерениях участников. Для адекватного анализа требуется применение специальных статистических методов, разработанных для работы с цензурированными данными, таких как модели выживаемости или тобитные регрессии, позволяющие корректно оценить влияние различных факторов на вероятность и время исполнения ордера.

Для точного прогнозирования времени исполнения ордера необходимо разработать модели, способные эффективно обрабатывать цензурированные данные и учитывать динамическое взаимодействие действий различных участников торгов в книге лимитных ордеров. Традиционные статистические методы часто оказываются неэффективными из-за того, что часть ордеров не исполняется в течение наблюдаемого периода, создавая искажения в данных. Новые подходы фокусируются на алгоритмах, способных оценивать вероятность исполнения ордера с учетом неполноты данных и влияния действий других трейдеров, таких как добавление или отмена ордеров. Учет этих сложных взаимодействий позволяет более реалистично моделировать поведение рынка и повысить точность прогнозов, что критически важно для оптимального исполнения сделок и максимизации прибыли.

На представленной структуре книги ордеров (LOB) фиолетовые столбцы отображают ордера на продажу (ask), а светло-зеленые - ордера на покупку (bid).
На представленной структуре книги ордеров (LOB) фиолетовые столбцы отображают ордера на продажу (ask), а светло-зеленые — ордера на покупку (bid).

Анализ выживаемости: естественный подход к прогнозированию времени исполнения

Анализ выживаемости (Survival Analysis) представляет собой мощный инструментарий для моделирования времени исполнения ордера (Time-to-Fill), который позволяет явно учитывать цензурирование данных — ситуации, когда ордер не был исполнен к моменту окончания рассматриваемого периода. В отличие от традиционных методов, анализ выживаемости позволяет оценивать вероятность исполнения ордера на любом заданном интервале времени, учитывая как исполненные, так и неисполненные ордера. Это достигается путем моделирования функции выживания $S(t)$, которая представляет собой вероятность того, что ордер не будет исполнен к моменту времени $t$. Использование анализа выживаемости позволяет получить более точные оценки вероятностей исполнения ордера, особенно в случаях, когда значительная часть ордеров подвержена цензурированию.

Для оценки и калибровки моделей выживаемости, используемых для анализа времени исполнения ордеров, применяются метрики C-индекс и RCLL (Ranked Cumulative Loss). C-индекс, также известный как Concordance Index, оценивает способность модели ранжировать правильно исполненные ордера относительно неисполненных, принимая значения от 0.5 (случайное ранжирование) до 1. RCLL, представляющий собой ранжированный кумулятивный убыток, измеряет ожидаемые убытки, связанные с неправильным ранжированием событий исполнения ордеров. Низкие значения RCLL указывают на более точные прогнозы. Использование этих метрик позволяет количественно оценить качество модели и обеспечить её надёжность при оптимизации торговых стратегий и оценке вероятностей исполнения ордеров.

Рассматривая исполнение ордера как событие, происходящее во времени, становится возможным применение методов анализа выживаемости, изначально разработанных для медицинской статистики и надежности. Это позволяет оценивать вероятность исполнения ордера на любом заданном моменте времени, учитывая как исполненные, так и неисполненные ордера (цензурирование). Полученные оценки вероятностей исполнения могут быть использованы для калибровки моделей ценообразования, оптимизации стратегий исполнения ордеров с целью минимизации проскальзывания и максимизации вероятности исполнения, а также для построения более точных моделей оценки риска ликвидности. Применение таких методов позволяет перейти от простых оценок вероятности исполнения к более детальному пониманию временных характеристик процесса исполнения ордеров.

Динамика ключевых метрик демонстрирует их изменение в течение 20 моментов прогнозирования.
Динамика ключевых метрик демонстрирует их изменение в течение 20 моментов прогнозирования.

KANFormer: глубокое обучение для точной оценки времени исполнения

KANFormer представляет собой новую модель глубокого обучения, разработанную для прогнозирования вероятностей заполнения. В ее архитектуре объединены преимущества Transformer-архитектуры, обеспечивающей эффективную обработку последовательностей данных и учет контекста, и Kolmogorov-Arnold Networks (KAN), позволяющих моделировать нелинейные зависимости и сложные функции. Комбинирование этих подходов позволяет KANFormer эффективно извлекать и использовать информацию из данных для повышения точности прогнозов вероятности заполнения, что отличает ее от традиционных моделей глубокого обучения.

Модель KANFormer использует метод Dynamic Conditional Correlation (DCC) для обработки снимков книги ордеров (LOB Snapshots). DCC позволяет эффективно захватывать локальные временные закономерности в данных, учитывая корреляции между различными элементами LOB. В процессе обработки, KANFormer интегрирует информацию о действиях агентов (Agent Actions) и текущей позиции в очереди (Queue Position), что позволяет модели более точно оценивать влияние этих факторов на динамику формирования ордеров и, как следствие, прогнозировать вероятность заполнения (fill probabilities). Использование DCC в сочетании с информацией об агентах и позициях позволяет KANFormer эффективно обрабатывать временные ряды, характерные для данных книги ордеров.

Модель KANFormer демонстрирует значительное повышение точности прогнозирования времени заполнения по сравнению с базовыми моделями. Среднее значение метрики $AUC$ составляет 0.76, что превосходит показатели модели ConvTrans (arroyo2024deep). Кроме того, KANFormer достигает наивысшего значения $C$-индекса и демонстрирует превосходную калибровку, подтверждаемую отрицательной логарифмической правдоподобностью правосторонней цензуры ($RCLL$) равной 0.53.

Анализ важности признаков, полученный с помощью ConvTrans модели (arroyo2024deep) для различных горизонтов предсказания, показывает, какие признаки оказывают наибольшее влияние на точность прогнозирования.
Анализ важности признаков, полученный с помощью ConvTrans модели (arroyo2024deep) для различных горизонтов предсказания, показывает, какие признаки оказывают наибольшее влияние на точность прогнозирования.

Интерпретация KANFormer: выявление ключевых факторов

Анализ с использованием метода $SHAP$ позволил выявить ключевые факторы, определяющие прогнозы модели KANFormer. Исследование показало, что дисбаланс ордеров и уровни цен оказывают наибольшее влияние на принимаемые ею решения. Особое значение имеет не просто наличие дисбаланса, но и его величина, а также близость текущей цены к значимым уровням поддержки и сопротивления. Понимание этих взаимосвязей позволяет более точно интерпретировать сигналы модели и оценить вероятность их реализации, что критически важно для практического применения в торговых стратегиях и управлении рисками.

Возможность интерпретации предсказаний модели KANFormer предоставляет трейдерам уникальную возможность понять логику, лежащую в основе этих предсказаний. Вместо простого получения сигнала, специалист получает информацию о том, какие факторы — дисбаланс ордеров и ценовые уровни — оказали наибольшее влияние на конкретное решение модели. Это позволяет не просто слепо следовать рекомендациям, а оценивать их обоснованность в текущей рыночной ситуации и принимать взвешенные, обоснованные решения. Понимание причин, лежащих в основе предсказаний, значительно повышает уверенность в использовании модели и способствует более эффективной интеграции в торговые стратегии.

Прозрачность логики KANFormer играет ключевую роль в формировании доверия к модели и её успешной интеграции в реальные торговые системы. Предоставляя возможность увидеть, как именно модель приходит к тем или иным прогнозам, исследователи и трейдеры получают возможность оценить обоснованность её решений, а не полагаться на «чёрный ящик». Это понимание позволяет не только выявлять потенциальные ошибки или предвзятости, но и адаптировать модель к специфическим рыночным условиям и индивидуальным стратегиям торговли. В конечном итоге, такая прозрачность способствует более эффективному использованию KANFormer, позволяя интегрировать её в существующие рабочие процессы и повысить общую прибыльность торговых операций.

Анализ важности признаков, выполненный с помощью SHAP-значений, показывает, как вклад различных признаков изменяется в зависимости от горизонта прогнозирования.
Анализ важности признаков, выполненный с помощью SHAP-значений, показывает, как вклад различных признаков изменяется в зависимости от горизонта прогнозирования.

Перспективы развития: расширение горизонтов моделирования исполнения ордеров

Дальнейшие исследования направлены на интеграцию KANFormer с передовыми алгоритмами обучения с подкреплением для автоматизированного исполнения сделок. Подобный симбиоз позволит создать самообучающуюся систему, способную адаптироваться к динамично меняющимся рыночным условиям и оптимизировать стратегии исполнения ордеров в реальном времени. KANFormer, благодаря своей способности эффективно обрабатывать последовательности данных, может предоставить ценную информацию о структуре рынка и вероятных движениях цен, а обучение с подкреплением позволит агенту научиться принимать оптимальные решения по исполнению ордеров, максимизируя прибыль и минимизируя риски. Перспективным направлением является разработка гибридных моделей, сочетающих в себе преимущества обоих подходов, что потенциально приведет к созданию более эффективных и устойчивых торговых систем.

Исследования показывают, что применение моделей глубокого обучения для анализа выживаемости, таких как $DeepHit$, способно значительно повысить точность прогнозирования в задачах исполнения ордеров. В отличие от традиционных методов, которые часто полагаются на параметрические предположения о распределении времени жизни ордера, $DeepHit$ позволяет моделировать сложные нелинейные зависимости и учитывать индивидуальные характеристики каждого ордера. Это особенно важно в динамичных рыночных условиях, где время жизни ордера может существенно варьироваться в зависимости от множества факторов, включая объем, ликвидность и волатильность. Использование глубоких нейронных сетей для анализа выживаемости позволяет более эффективно выявлять скрытые закономерности и улучшать предсказание вероятности исполнения ордера в заданный момент времени, что, в свою очередь, способствует оптимизации стратегий торговли и повышению эффективности рынка.

Сочетание методов выживаемости и глубинного обучения открывает принципиально новые горизонты для оптимизации торговых стратегий и повышения эффективности рынка. Традиционный анализ выживаемости, фокусирующийся на времени до наступления события — например, исполнения ордера — предоставляет ценную информацию о рисках и вероятностях. Однако, интеграция с глубинными нейронными сетями позволяет выявлять сложные нелинейные зависимости в данных, которые остаются незамеченными при использовании стандартных статистических моделей. Такой симбиоз позволяет не только более точно прогнозировать время исполнения ордеров, но и адаптироваться к изменяющимся рыночным условиям, формируя более устойчивые и прибыльные стратегии. Возможность моделирования сложных взаимодействий между различными рыночными факторами и динамичным учетом рисков, представляется ключевым фактором для повышения ликвидности и снижения транзакционных издержек, что в конечном итоге способствует развитию более эффективной и прозрачной торговой среды.

Изучение предельных ордерных книг (limit order books) неизменно напоминает о тщетности любых теоретических построений. Модель KANFormer, несмотря на всю свою элегантность и интеграцию методов выживания, лишь очередная попытка предсказать хаос. Как говорил Пауль Эрдеш: «Математики — это как наркоманы. Им нужно решить проблему, а не понимать ее». Эта фраза как нельзя лучше отражает суть работы с финансовыми данными: предсказать вероятность исполнения ордера важнее, чем понять глубинные закономерности рынка. В конечном итоге, продакшен всегда найдёт способ проверить даже самую изощрённую модель на прочность, и время до исполнения ордера (time-to-fill) станет суровой реальностью.

Куда же дальше?

Представленная работа, безусловно, добавляет ещё один слой сложности в предсказание поведения лимитных ордеров. Удивительно, как быстро невинный анализ времени до исполнения превращается в многослойную нейронную сеть с использованием Kolmogorov-Arnold Networks. Сейчас это назовут AI и получат инвестиции. Однако, не стоит забывать, что каждая «революционная» технология завтра станет техдолгом. Как скоро потребуется переписывать KANFormer, чтобы справиться с новыми, ещё более изощрёнными стратегиями трейдеров? Ведь, в конце концов, все эти сложные модели — лишь попытка аппроксимировать хаотичное поведение рынка, где всегда найдётся способ сломать элегантную теорию.

Очевидным направлением для дальнейших исследований является учёт контекста, выходящего за рамки непосредственно лимитной книги. Что, если добавить информацию о макроэкономических показателях, новостных потоках или даже, прости господи, настроениях в Twitter? Документация снова соврет, что это решит все проблемы. Но, вероятно, это лишь усложнит модель и увеличит вычислительные затраты, не сильно улучшив точность. Впрочем, это всегда можно списать на «недостаток данных».

Начинаю подозревать, что они просто повторяют модные слова. И всё же, несмотря на неизбежный технический долг (который, по сути, является просто эмоциональным долгом с коммитами), исследование открывает интересные возможности для более глубокого понимания динамики лимитных ордеров. Главное, не забывать, что в основе всего этого сложного аппарата лежит простая идея: предсказать, заполнится ли ордер. И да, эта простая идея когда-то была простым bash-скриптом.


Оригинал статьи: https://arxiv.org/pdf/2512.05734.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-08 15:45