Автор: Денис Аветисян
Новое исследование показывает, что учет распространенных психологических ловушек трейдеров в алгоритмах обучения с подкреплением не всегда приводит к улучшению результатов.
Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.
Бесплатный Телеграм канал
В работе исследуется возможность интеграции когнитивных искажений, таких как неприятие потерь и излишняя уверенность, в агентов обучения с подкреплением для финансовых торгов, и выявляются сложности в сближении поведенческих финансов и машинного обучения.
Традиционные модели обучения с подкреплением для финансовых рынков часто предполагают рациональность агентов, игнорируя влияние когнитивных искажений. В статье ‘Incorporating Cognitive Biases into Reinforcement Learning for Financial Decision-Making’ исследуется возможность интеграции таких искажений, как неприятие потерь и излишняя уверенность, в алгоритмы обучения с подкреплением для торговли. Полученные результаты демонстрируют, что простое добавление когнитивных искажений не всегда приводит к улучшению показателей, подчеркивая сложность моделирования человеческого поведения в финансовых системах. Возможно ли создать действительно реалистичные и эффективные финансовые AI-системы, учитывающие иррациональные аспекты поведения участников рынка?
Предел Традиционных Торговых Стратегий
Многие алгоритмические стратегии торговли, широко применяемые на финансовых рынках, основываются на анализе исторических данных, что делает их уязвимыми к меняющимся рыночным условиям. Предположение о стационарности рыночных процессов, лежащее в основе этих стратегий, часто не соответствует действительности: рынки подвержены непредсказуемым шокам, изменениям в регулировании и эволюции поведения участников. В результате, стратегии, успешно работавшие в прошлом, могут демонстрировать отрицательную доходность в новых условиях, поскольку не способны адаптироваться к текущей динамике. Данный феномен особенно заметен в периоды повышенной волатильности или при формировании новых трендов, когда исторические закономерности теряют свою актуальность, а необходимость оперативной перестройки алгоритмов становится критически важной.
Традиционные показатели оценки доходности с учетом риска, такие как коэффициент Шарпа, часто не учитывают влияние поведенческих искажений на реальную торговую деятельность. Эти метрики, рассчитанные на основе статистических данных, предполагают рациональное поведение инвесторов, что не всегда соответствует действительности. Исследования показывают, что когнитивные предубеждения, такие как склонность к подтверждению своей точки зрения или неприятие потерь, могут приводить к неоптимальным торговым решениям и снижению фактической доходности. В результате, полагаясь исключительно на эти показатели, можно получить искаженное представление об эффективности торговой стратегии и недооценить риски, связанные с иррациональным поведением участников рынка. Необходимо учитывать психологические факторы, чтобы получить более точную оценку и эффективно управлять рисками.
Исследования показали, что во всех протестированных конфигурациях алгоритмической торговли наблюдалась отрицательная кумулятивная доходность. Этот результат подчеркивает ограниченность традиционных стратегий, основанных исключительно на исторических данных и статистических моделях. Неспособность учитывать когнитивные искажения трейдеров и постоянно меняющуюся волатильность рынка приводит к убыткам. Необходимы адаптивные стратегии, способные динамически корректироваться в ответ на рыночные условия и человеческий фактор, чтобы обеспечить положительную доходность в долгосрочной перспективе. Данные результаты указывают на важность разработки более сложных моделей, включающих поведенческие аспекты и методы управления рисками, учитывающие иррациональное поведение участников рынка.

Обучение с Подкреплением для Адаптивной Торговли
Обучение с подкреплением (RL) представляет собой мощную основу для разработки автономных торговых агентов, способных обучаться на опыте взаимодействия со средой. В отличие от традиционных алгоритмических стратегий, RL-агенты не программируются на конкретные действия, а формируют оптимальное поведение посредством проб и ошибок, максимизируя вознаграждение (например, прибыль) за определенный период времени. Ключевым элементом является использование функции ценности, которая оценивает ожидаемую суммарную прибыль от нахождения в определенном состоянии и выполнения конкретного действия. Этот подход позволяет агенту адаптироваться к меняющимся рыночным условиям и выявлять закономерности, неявные для фиксированных правил, что делает RL перспективным инструментом для автоматизированной торговли.
Для обучения торгового агента используется алгоритм Q-обучения, относящийся к классу обучения с подкреплением. Q-обучение предполагает построение Q-функции, которая оценивает ожидаемую суммарную награду за выполнение определенного действия в заданном состоянии. Агент, взаимодействуя с симулированным рынком, обновляет значения Q-функции на основе полученных наград, стремясь максимизировать кумулятивную прибыль. В процессе обучения агент выбирает действия, руководствуясь стратегией ε-жадности, которая позволяет ему исследовать различные варианты и избегать застревания в локальных оптимумах. Целью является нахождение оптимальной политики, определяющей наилучшее действие в каждом состоянии, что обеспечивает максимизацию суммарной доходности.
Для обучения и оценки агентов, использующих обучение с подкреплением, применяются синтетические финансовые данные, генерируемые моделью случайного блуждания. Данный подход позволяет создать контролируемую среду, исключающую влияние внешних факторов и обеспечивающую воспроизводимость результатов. Модель случайного блуждания предполагает, что цена актива в каждый момент времени изменяется случайным образом, что является упрощенным, но эффективным способом моделирования волатильности. Использование синтетических данных позволяет избежать рисков, связанных с торговлей реальными активами на ранних стадиях обучения, а также обеспечивает возможность тестирования стратегий в различных рыночных условиях, заданных параметрами модели случайного блуждания, таких как стандартное отклонение и начальная цена.

Моделирование Когнитивных Искажений в Торговых Агентах
Для повышения реалистичности агентов, моделирующих торговлю, функция вознаграждения была модифицирована с учетом когнитивного искажения, известного как неприятие потерь. Данное искажение предполагает, что субъекты более остро воспринимают негативные последствия, чем положительные, при одинаковой абсолютной величине. В контексте торгового агента, это реализовано путем изменения функции вознаграждения таким образом, чтобы потеря определенной суммы приводила к большему снижению вознаграждения, чем прирост той же суммы. Математически, это может быть выражено как R' = R_{gain} - \lambda * R_{loss}, где R_{gain} и R_{loss} — вознаграждение от прибыли и убытков соответственно, а λ — коэффициент неприятия потерь, определяющий степень усиления негативного воздействия убытков.
Для моделирования склонности к излишней уверенности в процессе принятия решений, стратегия исследования агента была модифицирована посредством регулировки коэффициента исследования (Exploration Rate). Вместо стандартного эпсилон-жадного подхода с постоянным значением эпсилон, коэффициент исследования динамически уменьшался с течением времени обучения, но с замедлением, пропорциональным текущей оценке прибыльности действий. Это имитирует человеческую тенденцию переоценивать свою способность к успешным сделкам и уменьшать интенсивность поиска альтернативных стратегий по мере накопления опыта, даже если этот опыт ограничен или нерепрезентативен. Снижение скорости уменьшения коэффициента исследования отражает устойчивость агента к изменению своей стратегии, что соответствует когнитивному искажению, известному как переоценка собственных возможностей.
В ходе тестирования влияния коэффициентов потери неприятия риска (Loss Aversion) на производительность торговых агентов, использовались значения от 1 до 3. Результаты показали, что при значениях коэффициента λ ≥ 2.5 наблюдалось ухудшение итоговых показателей. Данный эффект указывает на то, что чрезмерное неприятие потерь препятствует эффективному обучению агента и снижает его способность к адаптации к изменяющимся рыночным условиям. Более высокие значения коэффициента приводили к снижению способности агента извлекать уроки из негативного опыта и оптимизировать стратегию торговли.
Анализ показал, что коэффициент Шарпа (Sharpe Ratio) оставался существенно нестабильным во всех конфигурациях агентов, вне зависимости от параметров, моделирующих когнитивные искажения. Данная вариативность указывает на неустойчивость процесса обучения, что проявляется в непостоянстве эффективности стратегий и затрудняет достижение надежных результатов. Наблюдаемая нестабильность требует дальнейшего исследования методов стабилизации обучения, таких как адаптивные алгоритмы оптимизации или использование регуляризации для предотвращения переобучения.

Улучшение Стабильности и Производительности с Доработками
Дискретизация пространства состояний является ключевым методом, позволяющим агенту эффективно ориентироваться в сложной рыночной среде. Вместо обработки непрерывных данных, представляющих бесконечное количество возможных рыночных ситуаций, данный подход разбивает пространство состояний на конечное число дискретных интервалов. Это значительно упрощает процесс обучения с подкреплением, поскольку агент вынужден исследовать лишь ограниченное количество состояний, а не бесконечный континуум. По сути, это позволяет агенту фокусироваться на наиболее значимых рыночных условиях, избегая чрезмерной вычислительной сложности и ускоряя сходимость алгоритма. В результате, дискретизация пространства состояний способствует более быстрой адаптации агента к динамично меняющимся рыночным условиям и повышает эффективность принятия решений.
Применение концепции временной непрерывности к сигналу вознаграждения позволяет значительно стабилизировать процесс обучения агента и предотвратить непредсказуемое поведение. Вместо того, чтобы полагаться исключительно на мгновенные награды, полученные после каждого действия, данный подход учитывает временную зависимость между последовательными состояниями и вознаграждениями. Это достигается путем сглаживания сигнала вознаграждения, что снижает влияние случайных колебаний и помогает агенту более эффективно выявлять долгосрочные тренды и закономерности на рынке. Таким образом, агент становится менее восприимчив к краткосрочным «шумам» и фокусируется на построении устойчивой стратегии, что способствует более предсказуемому и надежному обучению.
Несмотря на применение методов дискретизации пространства состояний и обеспечения временной непрерывности сигнала вознаграждения, исследование не выявило стабильного улучшения производительности при включении эффекта неприятия потерь в алгоритм обучения с подкреплением. Результаты показали, что, хотя данная концепция и предполагает более осторожное поведение агента, это не привело к последовательному увеличению прибыли или снижению рисков. Коэффициент Шарпа, являющийся мерой доходности с поправкой на риск, оставался неустойчивым, указывая на то, что волатильность портфеля не уменьшилась. Таким образом, добавление неприятия потерь не обеспечило желаемой стабилизации и не привело к положительной суммарной доходности в ходе моделирования.
Несмотря на применение различных методов оптимизации и адаптации к рыночным условиям, проведенные исследования не выявили ни одной конфигурации агента, способной обеспечить положительную суммарную доходность. Анализ результатов показал, что даже при учете дискретизации пространства состояний и применения принципа временной непрерывности к сигналам вознаграждения, агент не демонстрировал устойчивого прироста капитала. Данный факт указывает на сложность задачи автоматизированной торговли на рассматриваемом рынке и необходимость дальнейших исследований, направленных на поиск более эффективных стратегий обучения и адаптации.

Исследование показывает, что прямое включение когнитивных искажений, таких как неприятие потерь и излишняя уверенность, в алгоритмы обучения с подкреплением не гарантирует улучшения результатов в финансовой торговле. Этот результат подчеркивает сложность интеграции принципов поведенческих финансов и машинного обучения. Как отмечал Андрей Колмогоров: «Математика — это искусство открывать закономерности, скрытые в хаосе». Подобно тому, как математик ищет порядок в случайности, данная работа демонстрирует, что понимание и моделирование человеческих предубеждений требует более тонкого подхода, чем простое их добавление в существующие алгоритмы. Необходимо учитывать контекст и динамику рынков, чтобы создать действительно эффективные модели.
Что дальше?
Предположение о том, что вживление когнитивных искажений в алгоритмы обучения с подкреплением автоматически приведет к улучшению финансовых стратегий, оказалось излишне оптимистичным. Возможно, проблема не в самих искажениях, а в упрощенности их моделирования. Что произойдет, если вместо дискретных параметров «склонность к избежанию потерь» или «уверенность в себе», использовать динамические, контекстно-зависимые представления, отражающие сложность человеческого мышления? Вместо того, чтобы просто добавлять шум, необходимо понять, как эти искажения формируются и эволюционируют в реальном времени, под воздействием рыночной информации.
Игнорировать ограничения, накладываемые нерациональным поведением, — наивно. Но слепо копировать его — еще глупее. Попытки объединить поведенческие финансы и машинное обучение наталкиваются на фундаментальную проблему: машины оптимизируют, люди — упрощают. Следующий шаг — разработка моделей, которые не просто имитируют искажения, а учитывают причины их возникновения, используя, например, байесовские сети или агентное моделирование, для симуляции когнитивных процессов.
По сути, необходимо переосмыслить саму цель. Не нужно стремиться к созданию «рационального» агента, свободного от искажений. Вместо этого, следует искать способы использовать эти искажения в качестве дополнительного источника информации, учитывая, что именно нерациональность зачастую определяет поведение рынка. Что если, признав неизбежность субъективности, можно построить более устойчивые и адаптивные алгоритмы?
Оригинал статьи: https://arxiv.org/pdf/2601.08247.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- ПРОГНОЗ ДОЛЛАРА К ШЕКЕЛЮ
- БИТКОИН ПРОГНОЗ. BTC криптовалюта
- ЭФИРИУМ ПРОГНОЗ. ETH криптовалюта
- SOL ПРОГНОЗ. SOL криптовалюта
- SAROS ПРОГНОЗ. SAROS криптовалюта
- ZEC ПРОГНОЗ. ZEC криптовалюта
- ДОГЕКОИН ПРОГНОЗ. DOGE криптовалюта
- ПРОГНОЗ ЕВРО К ШЕКЕЛЮ
- РИППЛ ПРОГНОЗ. XRP криптовалюта
- PEPE ПРОГНОЗ. PEPE криптовалюта
2026-01-14 09:40