Инвестиции с умом: как нейросети учатся управлять рисками

Автор: Денис Аветисян


Новое исследование показывает, что использование глубокого обучения с подкреплением для оптимизации портфеля может снизить волатильность, но требует тщательной настройки и валидации, чтобы не потерять доходность.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Основой обучения с подкреплением является агент, воспринимающий состояние среды и использующий глубокую нейронную сеть для вычисления стратегии $π(s,a)$, посредством которой он предпринимает действия, получает вознаграждение и корректирует свою стратегию для оптимизации будущих решений.
Основой обучения с подкреплением является агент, воспринимающий состояние среды и использующий глубокую нейронную сеть для вычисления стратегии $π(s,a)$, посредством которой он предпринимает действия, получает вознаграждение и корректирует свою стратегию для оптимизации будущих решений.

Оценка применения методов глубокого обучения с подкреплением для динамической оптимизации портфеля с учетом риска и влияния на коэффициент Шарпа.

Несмотря на широкое распространение алгоритмов оптимизации портфеля, достижение стабильной доходности при одновременном контроле рисков остается сложной задачей. В данной работе, посвященной теме ‘Risk-Aware Deep Reinforcement Learning for Dynamic Portfolio Optimization’, предложен подход, использующий обучение с подкреплением для адаптивной аллокации активов с учетом показателей риска. Эксперименты показали, что, хотя предложенная модель и способна стабилизировать волатильность, она часто приводит к снижению риск-скорректированной доходности из-за чрезмерно консервативной политики. Каким образом можно эффективно сбалансировать исследование, максимизацию прибыли и минимизацию рисков в контексте обучения с подкреплением для практического применения в управлении портфелем?


За пределами традиционного построения портфеля

Традиционные стратегии построения инвестиционного портфеля, базирующиеся на принципах современной теории портфеля, зачастую испытывают трудности при столкновении со сложной динамикой рынка и не способны адаптироваться к меняющимся условиям. Эти подходы, как правило, опираются на статичные предположения о рисках и доходности, игнорируя тонкое взаимодействие рыночных факторов и возможности для динамической оптимизации. В результате, портфели, сформированные на этой основе, могут демонстрировать неудовлетворительные результаты в условиях высокой волатильности или упускать возможности для увеличения прибыли. Постоянное изменение корреляций между активами и появление новых факторов риска требуют от инвесторов более гибких и адаптивных стратегий, чем те, что предлагает классическая теория.

Традиционные подходы к формированию инвестиционного портфеля часто опираются на статичные предположения о рисках и доходности, игнорируя сложную взаимосвязь между различными рыночными факторами и возможность динамической оптимизации. Данные методы предполагают, что исторические данные могут служить надежным индикатором будущих результатов, не учитывая, что рынки постоянно эволюционируют и подвержены непредсказуемым изменениям. В результате, портфели, построенные на этих принципах, могут оказаться неадекватными в условиях повышенной волатильности или упустить возможности для увеличения доходности, поскольку не способны адаптироваться к меняющейся рыночной конъюнктуре и оперативно перераспределять активы в соответствии с новыми условиями. Игнорирование тонкостей взаимодействия между факторами, такими как процентные ставки, инфляция, геополитические события и настроения инвесторов, значительно ограничивает потенциал для достижения оптимальных результатов.

Традиционные стратегии формирования портфеля, несмотря на свою устоявшуюся практику, часто демонстрируют недостаточную эффективность в условиях высокой волатильности рынка и упускают возможности для увеличения доходности. Первоначальные портфели, сформированные на основе этих подходов, показали коэффициент Шарпа в 1.41, что указывает на приемлемый, но не оптимальный уровень доходности, скорректированной на риск. Это подчеркивает необходимость поиска более адаптивных и динамичных методов управления инвестициями, способных учитывать постоянно меняющиеся рыночные условия и более эффективно использовать возникающие возможности для повышения прибыльности портфеля.

Эффективная граница демонстрирует компромисс между ожидаемой доходностью и риском, при этом портфели на этой границе превосходят менее эффективные по соотношению доходности к риску, а линия рыночного капитала (CML) указывает на оптимальные комбинации портфелей, включающие безрисковый актив.
Эффективная граница демонстрирует компромисс между ожидаемой доходностью и риском, при этом портфели на этой границе превосходят менее эффективные по соотношению доходности к риску, а линия рыночного капитала (CML) указывает на оптимальные комбинации портфелей, включающие безрисковый актив.

Глубокое обучение с подкреплением для динамического распределения

Глубокое обучение с подкреплением (DRL) представляет собой перспективный подход к динамическому распределению активов, позволяющий агентам формировать оптимальные торговые стратегии посредством взаимодействия с рыночными данными. В отличие от традиционных методов, требующих заранее заданных правил или статистических моделей, DRL-агенты обучаются на основе получаемого опыта, максимизируя вознаграждение, определяемое прибыльностью портфеля. Этот процесс обучения включает в себя анализ исторических и текущих рыночных данных, таких как цены активов, объемы торгов и другие индикаторы, для принятия решений о покупке, продаже или удержании активов. В результате, DRL-агенты способны адаптироваться к меняющимся рыночным условиям и выявлять неявные закономерности, что потенциально позволяет превосходить традиционные стратегии управления портфелем.

Применение обучения с подкреплением (ОРУ) в управлении портфелем активов рассматривает процесс как последовательное принятие решений, где каждое действие — покупка, продажа или удержание — влияет на состояние портфеля и будущие возможности. В отличие от традиционных методов, ОРУ позволяет агенту динамически адаптироваться к меняющимся рыночным условиям, оценивая влияние каждого действия не только в краткосрочной, но и в долгосрочной перспективе. Такой подход особенно полезен в условиях высокой волатильности и нелинейных зависимостей, характерных для современных финансовых рынков, поскольку агент обучается оптимальной стратегии путем взаимодействия с рыночными данными и максимизации кумулятивной награды (прибыли) на протяжении определенного периода времени. Обучение происходит посредством проб и ошибок, позволяя агенту выявлять закономерности и разрабатывать стратегии, которые могут превзойти результаты статических или пассивных методов управления портфелем.

В основе данного подхода лежит использование глубоких нейронных сетей в качестве аппроксиматоров функций, что позволяет агенту эффективно обрабатывать многомерные пространства состояний и улавливать сложные взаимосвязи на рынке. Нейронные сети, благодаря своей архитектуре, способны моделировать нелинейные зависимости между различными факторами, влияющими на стоимость активов. Это особенно важно при работе с большими объемами исторических данных и в условиях высокой волатильности. Использование глубоких нейронных сетей позволяет агенту обобщать полученный опыт и принимать обоснованные решения даже в ситуациях, которые ранее не встречались в обучающей выборке. Эффективность аппроксимации функций напрямую влияет на скорость обучения и качество итоговой торговой стратегии.

В отличие от портфеля с равными весами, портфель, управляемый обучением с подкреплением, динамически перераспределяет активы для максимизации общей стоимости.
В отличие от портфеля с равными весами, портфель, управляемый обучением с подкреплением, динамически перераспределяет активы для максимизации общей стоимости.

Управление рисками и стратегии оптимизации

Модели обучения с подкреплением (DRL) могут быть обучены с использованием методов оптимизации, учитывающих риск, путем явного включения мер риска, таких как условная стоимость под риском (Conditional Value-at-Risk, CVaR), в функцию вознаграждения. CVaR, обозначаемая как $CVaR_{\alpha}(X) = E[X | X \leq VaR_{\alpha}(X)]$, представляет собой ожидаемый убыток, превышающий значение Value-at-Risk (VaR) с уровнем доверия $\alpha$. Включение CVaR позволяет агенту не только максимизировать ожидаемую доходность, но и минимизировать потенциальные убытки, что особенно важно в финансовых приложениях, где управление рисками является критически важным.

Обучение моделей DRL с учетом управления рисками позволяет агенту приоритизировать не только максимизацию прибыли, но и минимизацию потенциальных убытков и контроль над просадкой (Drawdown). Просадка, определяемая как максимальное снижение стоимости актива от пика до минимума, является ключевым показателем риска в финансовых приложениях. Внедрение механизмов, направленных на ограничение просадки, позволяет стабилизировать работу агента в периоды высокой волатильности и защитить капитал. Использование метрик, таких как $CVaR$ (Conditional Value-at-Risk), в качестве компонента функции вознаграждения, напрямую стимулирует агента к принятию решений, снижающих вероятность значительных потерь, даже если это означает умеренное снижение потенциальной прибыли.

Включение транзакционных издержек в процесс обучения агента, использующего обучение с подкреплением (DRL), существенно повышает реалистичность и практическую применимость разрабатываемой торговой стратегии. Модели DRL, обученные без учета комиссий, проскальзывания и других издержек, могут демонстрировать завышенную прибыльность в симуляциях, не соответствующую реальным рыночным условиям. Учет транзакционных издержек в функции вознаграждения позволяет агенту оптимизировать торговые решения, минимизируя влияние этих издержек на общую доходность и формируя более устойчивую и прибыльную стратегию в долгосрочной перспективе. Это особенно важно при разработке стратегий для высокочастотной торговли или работы с активами с низкой ликвидностью, где транзакционные издержки могут составлять значительную часть от общей прибыли.

Валидация и совершенствование DRL-агента

Первичное тестирование разработанного агента на исторических данных позволяет получить начальные сведения о его эффективности и оценить предложенную торговую стратегию. Этот этап включает в себя симуляцию торговых операций на основе прошлых рыночных данных, что позволяет оценить потенциальную прибыльность, уровень риска и общую производительность агента в различных рыночных условиях. Результаты бэктестинга служат отправной точкой для дальнейшей оптимизации и валидации агента, однако необходимо учитывать возможность переобучения модели под конкретный исторический период и использовать дополнительные методы оценки, такие как кросс-валидация, для обеспечения обобщающей способности.

Для предотвращения переобучения и обеспечения обобщающей способности агента, методы перекрестной проверки (Cross-Validation) являются критически важными при оценке его производительности на ранее не встречавшихся данных. Перекрестная проверка позволяет более надежно оценить, насколько хорошо агент адаптируется к новым рыночным условиям и не зацикливается на специфических особенностях обучающей выборки. В процессе перекрестной проверки данные разделяются на несколько подмножеств, агент обучается на части данных, а затем тестируется на оставшейся, что позволяет получить более объективную оценку его эффективности и избежать ложных выводов о его реальной прибыльности. Использование перекрестной проверки особенно важно при работе с финансовыми данными, где рыночные условия постоянно меняются.

Несмотря на снижение волатильности с 34.9% до 16.32%, реализованный агент обучения с подкреплением (DRL) продемонстрировал существенное ухудшение показателей доходности. Коэффициент Шарпа снизился с 1.41 до 0.13, а годовая доходность — с 51.1% до 2.1%. Данное снижение указывает на то, что, хотя агент и уменьшил риски, связанные с колебаниями цен, он одновременно значительно сократил потенциальную прибыль, что свидетельствует о необходимости дальнейшей оптимизации стратегии управления активами.

Будущее интеллектуального управления портфелем

Интеграция обучения с подкреплением (DRL) с методами оптимизации, учитывающими риски, представляет собой революционный подход к управлению портфелем инвестиций. Данная методология позволяет создавать портфели, способные не только максимизировать доходность, но и эффективно адаптироваться к сложным рыночным условиям и постоянно меняющейся динамике. В отличие от традиционных стратегий, DRL-агент способен обучаться на исторических данных и в реальном времени корректировать структуру портфеля, учитывая вероятные риски и стремясь к оптимальному соотношению между доходностью и безопасностью. Такая адаптивность особенно важна в периоды высокой волатильности, когда традиционные подходы могут оказаться неэффективными. В перспективе, применение DRL может привести к созданию интеллектуальных систем управления, способных предвидеть рыночные изменения и принимать обоснованные инвестиционные решения, минимизируя потери и максимизируя прибыль.

Данный подход к управлению портфелем позволяет формировать инвестиционные стратегии, ориентированные не только на максимизацию прибыли, но и на повышение устойчивости к колебаниям рынка и минимизацию потенциальных потерь. В отличие от традиционных методов, которые часто фокусируются исключительно на доходности, данная методология активно учитывает риски на каждом этапе формирования портфеля, стремясь к созданию сбалансированной структуры, способной выдерживать неблагоприятные рыночные условия. Это достигается за счет интеграции передовых алгоритмов оптимизации с учетом риска, что позволяет динамически корректировать состав портфеля в ответ на изменяющуюся рыночную конъюнктуру и защищать инвестиции от значительных просадок. В результате формируется портфель, обладающий не только потенциалом для роста, но и повышенной степенью защиты от непредсказуемости финансовых рынков.

Несмотря на то, что первоначальные результаты продемонстрировали благоприятное соотношение выигрышных дней — 49.71%, а информационный коэффициент достиг значения 3.96, наблюдаемое снижение коэффициента Шарпа указывает на необходимость дальнейшей оптимизации процесса обучения агента, использующего обучение с подкреплением. Это подразумевает более тщательную настройку алгоритма, возможно, за счет расширения набора обучающих данных или модификации функции вознаграждения, чтобы обеспечить стабильно положительную доходность с учетом риска. Дальнейшие исследования направлены на повышение способности агента адаптироваться к меняющимся рыночным условиям и минимизировать потенциальные потери, что является ключевым фактором для успешного управления портфелем в долгосрочной перспективе.

Данное исследование демонстрирует, что попытки оптимизировать инвестиционный портфель с помощью алгоритмов глубокого обучения, ориентированных на снижение волатильности, зачастую приводят к парадоксальным результатам. Модель, стремясь избежать рисков, может упустить потенциальную прибыль, что негативно сказывается на итоговом коэффициенте Шарпа. Этот феномен хорошо иллюстрирует известное высказывание Гегеля: «Сова Минервы начинает свой полёт только с наступлением ночи». То есть, истинное понимание последствий принимаемых решений приходит лишь после того, как они реализованы и можно оценить их фактический эффект. В данном контексте, алгоритм, казавшийся эффективным на этапе разработки, выявляет свои ограничения только в процессе бэктестинга и анализа реальных данных.

Что дальше?

Представленная работа, как и многие другие в области обучения с подкреплением, демонстрирует способность модели адаптироваться к динамике рынка. Однако, она также подчеркивает давнюю проблему: даже при наличии совершенной информации, человек — и, следовательно, алгоритм, созданный человеком — склонен оптимизировать под конкретную метрику, игнорируя более широкую картину. Снижение волатильности, само по себе, не является гарантией успеха; часто это лишь перераспределение риска, а не его уменьшение. Модель, стремясь избежать сожаления о провале, может упустить возможности для реальной прибыли.

Дальнейшие исследования должны быть сосредоточены не только на улучшении алгоритмов, но и на более глубоком понимании тех когнитивных искажений, которые лежат в основе принятия решений. Важно изучить, как можно интегрировать в модель не только математические ожидания, но и психологические факторы — страх, надежду, и склонность к стадному поведению. Возможно, истинный прогресс лежит не в создании идеального алгоритма, а в создании алгоритма, который понимает и предсказывает нерациональность.

В конечном счете, задача оптимизации портфеля — это не поиск максимальной доходности, а поиск компромисса между надеждой и страхом. И пока мы не научимся моделировать эти чувства, все наши усилия по созданию «умных» алгоритмов останутся лишь элегантным самообманом.


Оригинал статьи: https://arxiv.org/pdf/2511.11481.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-18 02:59