Криптовалютный портфель: обучение алгоритмов для максимизации прибыли

Автор: Денис Аветисян


Новое исследование демонстрирует, как методы глубокого обучения с подкреплением могут эффективно управлять криптовалютными инвестициями, адаптируясь к рыночным колебаниям.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
В ходе тестирования на волатильных криптовалютах BTC, ETH, LTC и DOGE, алгоритмы SAC, DDPG и MPT демонстрируют нормализованную динамику портфеля, сопоставимую с динамикой самого Bitcoin, что указывает на их адаптивность к изменяющимся рыночным условиям.
В ходе тестирования на волатильных криптовалютах BTC, ETH, LTC и DOGE, алгоритмы SAC, DDPG и MPT демонстрируют нормализованную динамику портфеля, сопоставимую с динамикой самого Bitcoin, что указывает на их адаптивность к изменяющимся рыночным условиям.

В работе сравниваются алгоритмы Soft Actor-Critic и Deep Deterministic Policy Gradient для оптимизации портфеля криптовалют и анализа временных рядов.

Традиционные методы оптимизации портфеля часто оказываются неэффективными в условиях высокой волатильности и нелинейной динамики криптовалютных рынков. В данной работе, посвященной теме ‘Cryptocurrency Portfolio Management with Reinforcement Learning: Soft Actor—Critic and Deep Deterministic Policy Gradient Algorithms’, предлагается новый подход, основанный на обучении с подкреплением. Показано, что алгоритмы Soft Actor-Critic (SAC) и Deep Deterministic Policy Gradient (DDPG) превосходят базовые стратегии управления портфелем, адаптируясь к рыночной конъюнктуре и максимизируя доходность с учетом рисков. Сможет ли глубокое обучение с подкреплением стать стандартом для адаптивного и data-driven управления криптовалютными инвестициями?


Неустойчивость Традиционных Подходов: Пророчество о Сбое на Крипторынке

Традиционные методы оптимизации портфеля, такие как модель Марковица «средняя дисперсия», испытывают значительные трудности применительно к рынкам криптовалют. Эти модели, разработанные для более стабильных активов, предполагают стационарность — то есть, что статистические свойства активов, включая среднюю доходность и волатильность, остаются постоянными во времени. Однако, криптовалюты характеризуются крайне высокой волатильностью и непредсказуемыми колебаниями цен, что делает эти предположения недействительными. Постоянно меняющаяся корреляция между различными криптовалютами и невозможность точно предсказать будущие цены приводят к тому, что оптимизированные портфели, построенные на основе этих моделей, часто демонстрируют неудовлетворительные результаты и не обеспечивают ожидаемого уровня диверсификации. Крайне высокая изменчивость крипторынка, таким образом, требует адаптации существующих подходов или разработки принципиально новых методов управления рисками и формирования портфелей.

Традиционные методы оптимизации портфеля, такие как модель Марковица «средняя дисперсия», зачастую не учитывают издержки, связанные с проведением транзакций на криптовалютных рынках. Эти издержки, включающие комиссии бирж и проскальзывание ордеров, могут существенно снижать реальную доходность инвестиций, особенно при высокой частоте операций. Исследования показывают, что игнорирование транзакционных издержек приводит к переоценке потенциальной прибыли и формированию неоптимальных портфельных стратегий. В связи с этим, разработка более устойчивых и эффективных решений требует учета всех сопутствующих расходов и применения продвинутых алгоритмов, способных минимизировать влияние транзакционных издержек на конечный результат, обеспечивая более реалистичную оценку и управление рисками.

В условиях постоянно меняющихся рыночных реалий, статичные стратегии распределения активов демонстрируют свою неэффективность. Исследования показывают, что фиксированные пропорции инвестиций, рассчитанные на основе исторических данных, быстро теряют актуальность в периоды высокой волатильности и непредсказуемости. Вместо этого, для эффективного управления рисками требуется внедрение адаптивных методов, способных оперативно реагировать на изменения рыночной конъюнктуры. Такие подходы включают в себя динамическую перебалансировку портфеля, использование алгоритмов машинного обучения для прогнозирования рыночных тенденций и автоматическую корректировку аллокации активов в зависимости от текущего уровня риска. В результате, инвесторы могут не только снизить потенциальные потери, но и повысить общую доходность своих инвестиций в долгосрочной перспективе, приспосабливаясь к быстро меняющимся условиям финансового рынка.

Сравнение алгоритмов SAC, DDPG и классического подхода Марковица показывает, что они демонстрируют схожие показатели эффективности портфеля.
Сравнение алгоритмов SAC, DDPG и классического подхода Марковица показывает, что они демонстрируют схожие показатели эффективности портфеля.

Обучение с Подкреплением: Новый Взгляд на Принятие Инвестиционных Решений

Обучение с подкреплением (Reinforcement Learning, RL) представляет собой итеративный процесс принятия решений, в котором агент, в данном случае — система управления портфелем, взаимодействует со средой, представляющей финансовый рынок. Агент формирует стратегию на основе получаемой обратной связи — прибыли или убытков — от своих действий, автоматически корректируя состав портфеля. В отличие от традиционных алгоритмов, RL не требует заранее заданных правил или моделей рынка. Вместо этого, агент самостоятельно обучается оптимальной политике инвестирования путем максимизации суммарного вознаграждения (например, общей прибыли) за определенный период времени. Этот подход позволяет адаптироваться к изменяющимся рыночным условиям и учитывать сложные взаимосвязи между активами, что особенно важно для долгосрочного управления инвестициями.

Метод «Актер-Критик» представляет собой архитектуру управления портфелем, эффективно сочетающую исследование ($exploration$) и использование ($exploitation$) инвестиционных возможностей. В данной модели, «Актер» отвечает за выбор действий — определение оптимального распределения активов в портфеле — основываясь на текущем состоянии рынка. «Критик» оценивает выбранные действия, предоставляя обратную связь в виде оценки полученной прибыли или убытка. Эта оценка используется для улучшения стратегии «Актера» посредством обучения с подкреплением, позволяя модели адаптироваться к меняющимся рыночным условиям и находить баланс между использованием известных прибыльных стратегий и исследованием новых, потенциально более выгодных возможностей. Такая структура обеспечивает более стабильное и эффективное управление портфелем по сравнению с подходами, фокусирующимися исключительно на использовании существующих знаний.

Глубокое обучение с подкреплением (Deep Reinforcement Learning, DRL) расширяет возможности традиционного обучения с подкреплением за счет использования глубоких нейронных сетей для обработки сложных динамик рынка и многомерных данных. В отличие от методов, требующих ручного извлечения признаков, DRL позволяет агенту автоматически извлекать релевантные признаки непосредственно из необработанных рыночных данных, таких как цены, объемы торгов и макроэкономические показатели. Это особенно важно в финансовых приложениях, где количество потенциальных входных данных велико, а их взаимосвязи нелинейны. Архитектуры глубоких нейронных сетей, такие как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN), позволяют DRL моделировать временные зависимости и пространственные корреляции в данных, что повышает эффективность алгоритмов управления портфелем и принятия инвестиционных решений. Использование DRL позволяет агенту адаптироваться к изменяющимся рыночным условиям и эффективно находить оптимальные стратегии инвестирования даже в условиях высокой волатильности и неопределенности.

Стабилизация Обучения: Регуляризация Энтропии и Soft Actor-Critic

Алгоритм глубокого детерминированного градиента политики (DDPG) представляет собой базовый подход к обучению с подкреплением, однако его эффективность и стабильность сильно зависят от точной настройки гиперпараметров. Чувствительность к параметрам, таким как скорость обучения, коэффициенты дисконтирования и параметры шума, может привести к нестабильному обучению, требующему значительных усилий по оптимизации. Неправильная настройка может приводить к осцилляциям, расхождению или замедленному обучению, что затрудняет надежное применение DDPG в сложных средах, таких как финансовые рынки.

Метод Soft Actor-Critic (SAC) решает проблемы нестабильности и чувствительности к настройкам гиперпараметров, свойственные алгоритму Deep Deterministic Policy Gradient (DDPG), за счет применения регуляризации энтропии. Этот подход предполагает добавление к функции потерь члена, пропорционального энтропии политики. Максимизация энтропии политики стимулирует агента к более разнообразному исследованию пространства действий, что снижает вероятность застревания в локальных оптимумах и способствует повышению устойчивости обучения. В результате, SAC демонстрирует повышенную надежность и эффективность в различных задачах обучения с подкреплением по сравнению с DDPG и другими традиционными методами, такими как теория Марковица «Средняя дисперсия».

Алгоритм Soft Actor-Critic (SAC) использует максимизацию энтропии политики для стимулирования разнообразия торговых стратегий и снижения риска застревания в локальных оптимумах. В отличие от детерминированных подходов, SAC поощряет исследование более широкого спектра действий, что приводит к более устойчивым и адаптивным решениям. В ходе тестирования SAC последовательно демонстрировал превосходство над алгоритмом Deep Deterministic Policy Gradient (DDPG) и эталонным методом Марковица по теории среднеквадратичной оптимизации (MPT), подтверждая его эффективность в задачах оптимизации портфеля.

Сравнение алгоритмов SAC и DDPG показывает, что SAC обеспечивает более стабильную и надежную работу, судя по показателям Sharpe ratio, Sortino ratio, максимальной просадки, VaR (95%) и CVaR (95%).
Сравнение алгоритмов SAC и DDPG показывает, что SAC обеспечивает более стабильную и надежную работу, судя по показателям Sharpe ratio, Sortino ratio, максимальной просадки, VaR (95%) и CVaR (95%).

Извлечение Признаков и Оценка Эффективности: От Данных к Прогнозу

Глубокое обучение с подкреплением демонстрирует значительную эффективность в задачах финансового трейдинга при использовании надежных методов извлечения признаков. Особое внимание уделяется сетям долгой краткосрочной памяти (LSTM), которые оказались особенно полезны при анализе данных OHLCV (Open, High, Low, Close, Volume). Эти рекуррентные нейронные сети способны улавливать временные зависимости в данных, что критически важно для прогнозирования динамики финансовых инструментов. Благодаря своей архитектуре, LSTM-сети могут эффективно обрабатывать последовательности данных, выявляя закономерности и корреляции, которые остаются незамеченными при использовании традиционных статистических методов. Использование LSTM в сочетании с алгоритмами глубокого обучения с подкреплением позволяет создавать торговые стратегии, адаптирующиеся к изменяющимся рыночным условиям и максимизирующие потенциальную прибыль, минимизируя при этом риски.

Для всесторонней оценки эффективности инвестиционных стратегий недостаточно ограничиваться анализом простой доходности. Комплексный подход требует использования показателей, учитывающих соотнесение риска и доходности. Такие метрики, как коэффициент Шарпа ($Sharpe Ratio$), коэффициент Сортино ($Sortino Ratio$), максимальная просадка ($Maximum Drawdown$) и ценность под риском ($Value-at-Risk$), позволяют получить более полное представление о потенциальных убытках и доходности. Коэффициент Шарпа измеряет избыточную доходность на единицу риска, в то время как коэффициент Сортино фокусируется на риске снижения. Максимальная просадка демонстрирует наибольшее падение стоимости портфеля, а ценность под риском оценивает потенциальные потери при определенном уровне вероятности. Использование этих показателей в совокупности дает инвесторам возможность более точно оценить и сравнить различные инвестиционные стратегии, принимая взвешенные решения.

Оценка условного значения в риске (CVaR) предоставляет ценную информацию о риске в «хвосте» распределения, позволяя инвесторам оценить потенциал экстремальных убытков. В рамках проведенного исследования алгоритм Soft Actor-Critic (SAC) продемонстрировал наивысшую итоговую стоимость портфеля, составив $2.7627, что превзошло результаты всех протестированных алгоритмов. Этот алгоритм также показал коэффициент Шарпа, равный $0.0673$, и коэффициент Sortino, равный $0.1093$, что свидетельствует о его способности генерировать доход с учетом риска и акцентирует внимание на эффективном управлении потенциальными потерями в периоды высокой волатильности.

Предварительная обработка данных OHLCV криптовалюты включает в себя последовательность шагов для подготовки данных к дальнейшему анализу.
Предварительная обработка данных OHLCV криптовалюты включает в себя последовательность шагов для подготовки данных к дальнейшему анализу.

Исследование демонстрирует, что адаптация к волатильности рынка — ключевой аспект эффективного управления криптовалютным портфелем. Алгоритмы глубокого обучения с подкреплением, такие как Soft Actor-Critic, превосходят традиционные методы, поскольку они способны обучаться и эволюционировать в ответ на изменяющиеся условия. Это подтверждает мысль Ральфа Уолдо Эмерсона: «Не бойся медленно идти, бойся стоять на месте». Ведь стагнация в условиях динамичного рынка — верный путь к потере. Данная работа показывает, что стабильность — это не данность, а результат постоянной адаптации и обучения, своего рода иллюзия, поддерживаемая эффективными алгоритмами и анализом временных рядов.

Куда же дальше?

Представленная работа демонстрирует, что алгоритмы глубокого обучения с подкреплением способны адаптироваться к изменчивости рынка криптовалют, однако это лишь один виток в бесконечном цикле. Каждая зависимость от исторических данных — это обещание, данное прошлому, и забвение того, что будущее всегда будет иным. Алгоритм, оптимизирующий портфель сегодня, завтра столкнётся с ситуацией, не предусмотренной в обучающей выборке, и тогда он начнёт, как ни парадоксально, само себя чинить — вносить хаотические корректировки, чтобы выжить.

Вместо стремления к контролю — иллюзии, требующей гарантированного SLA — стоит обратить внимание на создание экосистем, способных к саморегуляции. Не портфель, управляемый алгоритмом, а сеть агентов, взаимодействующих друг с другом и рынком, формирующих новые стратегии и адаптирующихся в реальном времени. Задача не в максимизации прибыли, а в поддержании устойчивости системы в условиях неопределённости.

Истинный прогресс не в усовершенствовании алгоритмов оптимизации, а в понимании, что системы — это не инструменты, а живые организмы. Они растут, развиваются и меняются, и попытки их построить раз и навсегда обречены на неудачу. Всё, что построено, когда-нибудь начнёт само себя чинить, и в этом — его истинная сила.


Оригинал статьи: https://arxiv.org/pdf/2511.20678.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-27 13:50