Когда сигналы обманывают: о границах применимости языковых моделей в торговле

Автор: Денис Аветисян

Новое исследование показывает, что эффективность моделей машинного обучения для прогнозирования на финансовых рынках резко снижается при изменении рыночных условий и под воздействием макроэкономических шоков.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

В периоды повышенной волатильности, измеряемой индексом VIX, агент, дополненный большой языковой моделью, демонстрирует результаты хуже базового уровня, однако при снижении волатильности эта разница сглаживается или даже меняется на противоположную, что указывает на чувствительность агента к рыночным условиям.

В статье анализируется зависимость качества генерируемых языковыми моделями признаков и стратегий обучения с подкреплением от рыночных режимов и предлагается оценка устойчивости моделей при изменении распределения данных.

Несмотря на успехи больших языковых моделей (LLM) в извлечении информации, их применение в финансовых стратегиях сталкивается с неожиданными ограничениями. В работе ‘When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies’ исследуется возможность использования LLM для генерации прогностических признаков в алгоритмической торговле с подкреплением. Полученные результаты показывают, что, несмотря на высокую предсказательную силу LLM-признаков в спокойных рыночных условиях, их эффективность резко снижается при макроэкономических шоках. Подтверждает ли это необходимость разработки более устойчивых к смене рыночного режима методов оценки и применения LLM в финансовых приложениях?

Преодолевая Ограничения Традиционного Моделирования: Сила LLM в Анализе Рынка

Традиционные методы финансового моделирования исторически опирались на так называемые “handcrafted features” — признаки, созданные экспертами вручную. Однако, эти признаки часто оказываются хрупкими и неспособными уловить сложные, тонкие сигналы рынка. Их эффективность напрямую зависит от конкретных условий и предположений, которые могут быстро устареть. В отличие от них, динамично меняющаяся рыночная среда требует гибких инструментов, способных адаптироваться к новым данным и выявлять закономерности, которые остаются незамеченными при использовании статичных, заранее определенных признаков. В результате, модели, основанные на “handcrafted features”, нередко демонстрируют низкую устойчивость к изменениям и ограничены в способности прогнозировать будущие рыночные тенденции.

Современные большие языковые модели (LLM) открывают новые возможности для извлечения ценной информации из неструктурированных данных, таких как новостные статьи и отчетность Комиссии по ценным бумагам и биржам (SEC). В отличие от традиционных методов финансового моделирования, требующих ручного создания признаков, LLM способны автоматически анализировать текст и выявлять скрытые взаимосвязи и контекстные нюансы, которые могут влиять на рыночные сигналы. Этот подход позволяет существенно расширить набор используемых признаков, включая информацию о настроениях инвесторов, ключевых событиях и потенциальных рисках, которые ранее оставались незамеченными. Подобная автоматизация и глубина анализа позволяют более эффективно прогнозировать динамику рынка и принимать обоснованные инвестиционные решения.

Для эффективного использования больших языковых моделей (LLM) в финансовом моделировании необходимы инновационные подходы к конструированию признаков. Исследование демонстрирует, что автоматизированный цикл оптимизации запросов к LLM способен значительно улучшить качество извлекаемых признаков. В ходе эксперимента наблюдалось повышение коэффициента информации (Information Coefficient — IC) с отрицательного значения -0.024 до положительного +0.104. Это свидетельствует о том, что правильно настроенные запросы позволяют LLM выявлять более релевантные и полезные сигналы из неструктурированных данных, что потенциально может привести к повышению точности финансовых прогнозов и улучшению инвестиционных стратегий.

Исследования показывают, что извлечение полезной информации с помощью больших языковых моделей (LLM) требует внимательного подхода к качеству исходных данных и учету макроэкономических факторов. Простое добавление LLM-сгенерированных признаков к существующим финансовым моделям не гарантирует повышения их эффективности. Для достижения стабильных результатов необходимо тщательно оценивать достоверность и полноту данных, используемых для обучения моделей, а также интегрировать в анализ ключевые макроэкономические показатели, отражающие общую экономическую ситуацию. Игнорирование этих аспектов может привести к ложным сигналам и снижению точности прогнозов, даже при использовании самых передовых LLM-технологий. Таким образом, успешное применение LLM в финансовом моделировании требует комплексного подхода, сочетающего инновационные методы извлечения признаков с фундаментальным анализом экономических реалий.

К концу 2025 года среднее значение совокупного портфеля (сплошные линии) демонстрирует, что стратегия H1 (красный цвет), реагирующая на тарифные шоки, обеспечивает более высокую доходность по сравнению со спокойной стратегией H2 (желтый цвет), при этом стандартное отклонение, обозначенное затенёнными областями, позволяет оценить разброс результатов.

Обучение с Подкреплением: Мощный Инструмент для Алгоритмической Торговли

Обучение с подкреплением (RL) представляет собой подход к алгоритмической торговле, основанный на анализе данных, позволяющий агентам самостоятельно разрабатывать оптимальные стратегии посредством процесса проб и ошибок. В отличие от традиционных алгоритмов, требующих ручной настройки правил, RL-агент взаимодействует с рыночной средой, получая вознаграждение за прибыльные сделки и штрафы за убыточные. Этот механизм позволяет агенту адаптироваться к изменяющимся рыночным условиям и выявлять неявные закономерности, которые могут быть упущены при использовании фиксированных стратегий. Процесс обучения включает в себя итеративное улучшение стратегии агента на основе полученного опыта, что позволяет ему оптимизировать свои действия для максимизации прибыли и минимизации рисков.

Агент PPO (Proximal Policy Optimization) представляет собой алгоритм обучения с подкреплением, который эффективно работает в сложных финансовых средах благодаря механизму доверительной области. Данный механизм ограничивает изменение политики на каждом шаге обучения, что обеспечивает стабильность и предотвращает резкие колебания стратегии. В отличие от других алгоритмов RL, PPO демонстрирует высокую устойчивость к переобучению и позволяет агенту адаптироваться к нелинейным и нестационарным характеристикам финансовых рынков. Это достигается за счет баланса между исследованием (exploration) и использованием (exploitation) стратегий, что позволяет агенту находить оптимальные решения даже в условиях высокой волатильности и неполной информации. В результате, PPO часто превосходит другие RL-агенты в задачах алгоритмической торговли, требующих долгосрочной стабильности и адаптивности.

Интеграция признаков, полученных из больших языковых моделей (LLM), в систему обучения с подкреплением (RL) позволяет агенту реагировать на текущие новости и рыночные события с повышенной точностью. LLM анализируют новостные ленты, социальные сети и другие источники текстовой информации для извлечения релевантных признаков, таких как настроение рынка, ключевые события и потенциальные риски. Эти признаки затем используются в качестве входных данных для RL-агента, что позволяет ему более эффективно адаптироваться к изменяющимся рыночным условиям и принимать более обоснованные торговые решения. Эксперименты показали, что использование LLM-признаков в сочетании с макроэкономическими данными значительно улучшает показатели Sharpe Ratio, демонстрируя повышение эффективности торговой стратегии.

Включение макроэкономических факторов является критически важным для повышения эффективности агентов, использующих обучение с подкреплением (RL) в алгоритмической торговле. Анализ результатов моделирования за первое полугодие 2025 года показал значительную разницу в коэффициенте Шарпа: при использовании LLM-derived признаков без макроэкономического контекста он составил -0.267, в то время как при использовании только макроэкономических признаков коэффициент Шарпа достиг -0.007. Это свидетельствует о том, что учет широких экономических тенденций значительно улучшает способность RL-агента принимать обоснованные торговые решения и минимизировать риски, особенно в условиях меняющейся рыночной конъюнктуры.

Преодолевая Вызовы Реального Внедрения

Смещение распределения данных (distribution shift) и изменение рыночного режима (regime change) представляют собой серьезные угрозы для производительности агентов обучения с подкреплением (RL) в реальных условиях. Эти явления, связанные с эволюцией рыночной конъюнктуры во времени, приводят к несоответствию между данными, на которых обучалась модель, и данными, с которыми она сталкивается в процессе эксплуатации. Изменение статистических свойств входных данных может существенно снизить точность прогнозов и, как следствие, привести к убыточным сделкам. Регулярный мониторинг и адаптация модели к новым рыночным условиям, включая переобучение и использование методов адаптации к домену, необходимы для поддержания стабильной производительности агента RL в динамичной среде.

Разрыв между признаками и политикой (Feature-Policy Gap) представляет собой критическую проблему в обучении с подкреплением, возникающую, когда признаки, предоставляемые агенту, не содержат достаточной информации для принятия оптимальных решений. Это происходит, когда признаки не полностью отражают релевантные аспекты среды или не обладают предсказательной силой относительно будущих состояний и наград. В результате агент может обучаться неэффективной или субоптимальной политике, даже если алгоритм обучения работает корректно. Для смягчения данной проблемы необходимо тщательно отбирать и проектировать признаки, уделяя особое внимание их информативности и способности точно предсказывать будущие результаты, что требует как глубокого понимания предметной области, так и применения методов отбора и проектирования признаков.

Противоречивые сигналы, содержащиеся в новостных статьях, представляют собой существенную проблему для агентов, принимающих решения на основе этих данных. Наличие разнородной или взаимоискчающей информации в новостном потоке приводит к увеличению уровня шума и неопределенности, что затрудняет точную оценку рыночной ситуации и, как следствие, принятие оптимальных торговых решений. Агент может интерпретировать противоречивые сигналы как рыночную волатильность, что приведет к неверным прогнозам и потенциальным убыткам. Анализ и фильтрация противоречивых сигналов являются критически важными для повышения надежности и эффективности агента.

Оптимизация промптов играет ключевую роль в повышении качества признаков, извлекаемых из больших языковых моделей (LLM), и, как следствие, в увеличении их предсказательной силы. В ходе проведенных исследований было продемонстрировано значительное улучшение коэффициента информации (Information Coefficient, IC) — с -0.024 до +0.104 — посредством автоматизированной оптимизации промптов. Это указывает на то, что тщательно разработанные запросы к LLM позволяют получать более релевантные и информативные признаки, что критически важно для эффективности систем обучения с подкреплением, использующих эти признаки.

Обучение обоих агентов стабилизируется к отметке 400-500 тысяч шагов, что подтверждается достижением плато коэффициента Шарпа на данных H1 2025, при этом вертикальная линия указывает на точку отсечения при использовании нескольких начальных значений.

Валидация и Перспективы Развития LLM-Усиленного RL

Оценка и сопоставление различных стратегий обучения с подкреплением (RL) требует строгого бенчмаркинга — систематического измерения и анализа их эффективности в стандартизированных условиях. Именно бенчмаркинг позволяет объективно определить сильные и слабые стороны каждого подхода, выявить области для дальнейших улучшений и обеспечить воспроизводимость результатов. Без надлежащей оценки невозможно достоверно утверждать, какая стратегия превосходит другую, или определить, какие факторы оказывают наибольшее влияние на ее производительность. В контексте алгоритмической торговли, где даже незначительные улучшения могут привести к существенным финансовым выгодам, надежный бенчмаркинг становится критически важным инструментом для разработки и оптимизации торговых систем, а также для снижения рисков, связанных с непредсказуемостью финансовых рынков.

Библиотека FinRL представляет собой стандартизированный инструмент для обучения и оценки агентов, использующих обучение с подкреплением (RL), в контексте финансовых рынков. Она предоставляет унифицированную среду, включающую в себя исторические данные, реализацию алгоритмов RL и метрики оценки эффективности. Это позволяет исследователям и практикам сравнивать различные стратегии обучения, воспроизводить результаты и быстро прототипировать новые подходы к алгоритмической торговле. Стандартизация, обеспечиваемая FinRL, существенно упрощает процесс разработки и тестирования, способствуя более быстрому прогрессу в области применения RL к финансовым задачам и повышая надежность получаемых результатов.

Интеграция признаков, полученных с помощью больших языковых моделей (LLM), в структуры обучения с подкреплением (RL) открывает значительные перспективы для совершенствования алгоритмических стратегий торговли. Использование LLM позволяет извлекать ценную информацию из неструктурированных данных, таких как новостные статьи и социальные сети, и преобразовывать её в количественно оцениваемые признаки, которые могут быть использованы агентами RL для принятия более обоснованных торговых решений. В результате, агенты способны учитывать более широкий спектр факторов, влияющих на рынок, включая настроения инвесторов и потенциальные риски, что потенциально приводит к улучшению показателей доходности и снижению волатильности. Данный подход позволяет выйти за рамки традиционных технических индикаторов и статистических моделей, предлагая более гибкий и адаптивный инструмент для торговли на финансовых рынках.

Несмотря на перспективность использования больших языковых моделей (LLM) для улучшения алгоритмических торговых стратегий, дальнейшие исследования необходимы для преодоления ряда ключевых проблем. В частности, важно учитывать проблему смещения распределения данных (distribution shift), когда рыночные условия меняются, делая исторические данные менее релевантными. Кроме того, существует так называемый “разрыв между признаками и политикой” (feature-policy gap), когда признаки, полученные из LLM, не всегда напрямую транслируются в оптимальную торговую стратегию. Наконец, часто возникают противоречивые сигналы, требующие разработки механизмов для их фильтрации и интерпретации. Экспериментальные данные показали, что в H2 2025 года коэффициент Шарпа составил 1.099 при использовании только макроэкономических признаков, однако добавление признаков, полученных из LLM, привело к снижению этого показателя до 1.038. Это подчеркивает необходимость более глубокого анализа и совершенствования методов интеграции LLM в системы обучения с подкреплением для создания действительно устойчивых и надежных торговых систем.

Исследование, представленное в данной работе, подтверждает, что эффективность больших языковых моделей в финансовой торговле напрямую связана с устойчивостью признаков к изменениям рыночных режимов. Наблюдаемое снижение производительности при макроэкономических шоках подчеркивает необходимость тщательной оценки моделей в условиях сдвига распределений. В связи с этим, слова Ады Лавлейс приобретают особую актуальность: «Предмет математики должен быть не только инструментом для решения конкретных задач, но и средством для развития логического мышления». Подобный подход позволяет создавать алгоритмы, способные адаптироваться к меняющимся условиям и обеспечивать стабильную работу в различных рыночных сценариях, что критически важно для успешной торговли.

Куда же дальше?

Представленная работа, хотя и демонстрирует потенциал больших языковых моделей в генерации признаков для алгоритмической торговли, лишь подчеркивает фундаментальную проблему: предсказательная сила, основанная на статистических закономерностях, неизбежно сталкивается с границами при изменении рыночных режимов. Иллюзия устойчивости, создаваемая оптимизацией промптов, быстро развеивается при макроэкономических шоках, обнажая хрупкость алгоритмов, не учитывающих глубинные структурные изменения.

Дальнейшие исследования должны сосредоточиться не на увеличении количества генерируемых признаков, а на разработке метрик и методов, способных оценивать устойчивость моделей к сдвигам распределений. Информация о коэффициенте, безусловно, является шагом в правильном направлении, однако необходимо разработать более сложные инструменты, учитывающие не только статистические, но и качественные изменения рыночной динамики. Истинная элегантность алгоритма проявляется не в его способности «работать» на исторических данных, а в его предсказуемости в условиях неизвестности.

В конечном счете, задача заключается не в создании идеального промпта, а в разработке алгоритмической архитектуры, способной адаптироваться и самокорректироваться в условиях постоянного изменения рыночной реальности. Это требует отхода от эмпирических подходов и перехода к более формальным, математически обоснованным моделям.

Оригинал статьи: https://arxiv.org/pdf/2604.10996.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-14 11:06