Обучение с подкреплением: Как справиться с непредсказуемостью среды

Автор: Денис Аветисян

Новое исследование показывает, что стандартные алгоритмы обучения с подкреплением испытывают трудности в нестационарных условиях, и предлагает простой способ решения этой проблемы.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

В предложенной модели обучения агента, действующего в мультипликативной динамике, стратегия повторения действий позволяет управлять неэргодичностью среды, при этом оптимизация, основанная на ожидаемых значениях <span class="katex-eq" data-katex-display="false">p_{E}</span>, отличается от оптимизации, ориентированной на темпы роста, определяя различные точки безразличия <span class="katex-eq" data-katex-display="false">P_{T}</span> для выбора между безопасным и рискованным действиями. — В предложенной модели обучения агента, действующего в мультипликативной динамике, стратегия повторения действий позволяет управлять неэргодичностью среды, при этом оптимизация, основанная на ожидаемых значениях $p_{E}$ , отличается от оптимизации, ориентированной на темпы роста, определяя различные точки безразличия $P_{T}$ для выбора между безопасным и рискованным действиями.

Предлагается метод, основанный на повторении эпизодов обучения, позволяющий агентам эффективно адаптироваться к неэргодичным динамикам и улучшить процесс принятия решений.

Несмотря на успехи обучения с подкреплением, стандартные алгоритмы часто оказываются неэффективными в неэргодичных средах, где долгосрочные результаты зависят от конкретной траектории, а не от усредненных ожиданий. В работе «Model-Agnostic Solutions for Deep Reinforcement Learning in Non-Ergodic Contexts» исследуется эта проблема в контексте глубокого обучения с подкреплением и показано, что традиционные архитектуры, ориентированные на ожидаемые значения, приводят к субоптимальным политикам в неэргодических условиях. Предложенное решение, заключающееся в учете временной зависимости в процессе обучения, позволяет агенту оценивать функции ценности, согласованные с внутренней скоростью роста процесса, не требуя изменений в структуре вознаграждения. Способны ли эти подходы расширить область применения обучения с подкреплением на широкий класс нестационарных и неэргодичных систем?

Пределы Ожидаемого: Эргодичность и Обучение с Подкреплением

Традиционные алгоритмы обучения с подкреплением (RL) основываются на допущении эргодичности — принципе, утверждающем равенство временных и ансамблевых средних. Это упрощение позволяет агентам эффективно обучаться, экстраполируя опыт, полученный за определенный период времени, на всю систему в целом. По сути, эргодичность подразумевает, что достаточно длительное наблюдение за одной траекторией системы эквивалентно одновременному наблюдению за множеством различных траекторий. Благодаря этому допущению, RL может использовать статистические методы для оценки ожидаемых вознаграждений и оптимизации стратегий поведения. Однако, важно понимать, что это — упрощение, и не все реальные системы соответствуют этому принципу, что может приводить к ошибкам и нестабильности в процессе обучения.

В то время как традиционные алгоритмы обучения с подкреплением (RL) опираются на предположение об эргодичности систем, многие реальные процессы демонстрируют неэргодичное поведение, особенно те, которые характеризуются мультипликативной динамикой. Это означает, что среднее значение, рассчитанное по траекториям одного агента во времени, не совпадает со средним значением, рассчитанным по множеству агентов в фиксированный момент времени. В таких системах, где прошлые результаты не являются надежным индикатором будущих, стандартные методы RL становятся неэффективными, приводя к неточным оценкам и нестабильным стратегиям. Например, в финансовых рынках или системах с экспоненциальным ростом, небольшие начальные отклонения могут привести к существенным различиям в долгосрочных результатах, что делает стандартные алгоритмы RL неприменимыми и требующими разработки новых подходов, учитывающих неэргодичность.

Неспособность стандартных агентов глубокого обучения с подкреплением (DRL) оптимизировать стратегии для достижения истинно оптимального по времени результата демонстрирует критическую проблему в средах, где прошлые показатели не являются надежным предиктором будущих. В подобных неэргодичных системах, характеризующихся мультипликативной динамикой, стандартные алгоритмы RL дают неточные оценки и формируют нестабильные политики. Это связано с тем, что базовые предположения о равенстве временных и ансамблевых средних нарушаются, приводя к систематическим ошибкам в процессе обучения и, как следствие, к неоптимальному поведению агента. Таким образом, применение традиционных методов RL в неэргодичных средах приводит к искажению процесса принятия решений и снижению эффективности агента в достижении поставленных целей.

Обученные стратегии в упрощенной модели демонстрируют, что увеличение числа повторений <span class="katex-eq" data-katex-display="false">M</span> смещает точку безразличия <span class="katex-eq" data-katex-display="false">p_0</span> от предсказания на основе ожидаемого значения <span class="katex-eq" data-katex-display="false">p_E</span> (синяя, сплошная линия) к предсказанию на основе роста во времени <span class="katex-eq" data-katex-display="false">p_T</span> (зеленая, пунктирная линия), выявляя зависимость от траектории. — Обученные стратегии в упрощенной модели демонстрируют, что увеличение числа повторений $M$ смещает точку безразличия $p_0$ от предсказания на основе ожидаемого значения $p_E$ (синяя, сплошная линия) к предсказанию на основе роста во времени $p_T$ (зеленая, пунктирная линия), выявляя зависимость от траектории.

За Пределами Средней Награды: Критерий Келли и Временной Рост

В неэргодических средах, где статистические свойства меняются во времени, максимизация средней награды является недостаточной стратегией для долгосрочного роста капитала. В таких условиях, ключевым показателем эффективности становится не среднее значение, а темп роста капитала в долгосрочной перспективе — $\lim_{t \to \in fty} \frac{1}{t} \ln(W(t))$ , где $W(t)$ — величина капитала в момент времени $t$ . Максимизация средней награды может привести к банкротству, если возникают редкие, но значительные убытки, в то время как оптимизация темпа роста капитала фокусируется на минимизации риска полного разорения и обеспечении устойчивого, экспоненциального роста в долгосрочной перспективе. Это особенно важно в средах, характеризующихся высокой волатильностью и непредсказуемостью.

Критерий Келли представляет собой оптимальную стратегию максимизации долгосрочного роста капитала, основанную на максимизации логарифмической полезности и минимизации риска разорения. В отличие от простого максимизирования средней доходности, критерий Келли определяет оптимальную долю капитала, которую следует инвестировать в актив с положительным математическим ожиданием, учитывая вероятность как выигрыша, так и проигрыша. Математически, оптимальная доля $f^* = \frac{p - q}{b}$ , где $p$ — вероятность выигрыша, $q$ — вероятность проигрыша, а $b$ — отношение выигрыша к ставке. Применение данного критерия позволяет не только увеличить математическое ожидание прибыли, но и снизить волатильность капитала, тем самым уменьшая вероятность полного его обнуления в долгосрочной перспективе.

Применение критерия Келли к задачам распределения ресурсов, таким как проблема назначения портфеля, требует установления соответствия между состояниями системы, доступными действиями и результирующими темпами роста капитала. Для этого необходимо определить, как каждое действие в определенном состоянии влияет на ожидаемый геометрический средний доход. В частности, необходимо оценить вероятность успеха каждого действия и соответствующий коэффициент роста капитала в случае успеха. Оптимальное распределение ресурсов, согласно критерию Келли, максимизирует $log(E[S])$ , где $S$ — геометрический средний доход, а $E$ — математическое ожидание. Таким образом, для каждого состояния необходимо вычислить оптимальную долю капитала, выделяемую на каждое доступное действие, основываясь на оценке вероятности успеха и коэффициента роста, что позволяет максимизировать долгосрочный темп роста капитала.

Оптимальная стратегия распределения капитала, рассчитанная по критерию Келли (пунктирная зеленая линия), превосходит политику, основанную на ожидаемой стоимости (сплошная синяя линия), при решении задачи оптимизации портфеля (a и b).

Обучение в Неэргодичном Мире: Метод Повторных Тренировок

Метод Repetitions Training представляет собой новый подход в обучении с подкреплением (RL), разработанный для решения проблем, возникающих в неэргодических средах. В отличие от традиционных методов RL, предполагающих стационарность данных, Repetitions Training позволяет агенту многократно переживать одни и те же временные шаги. Это позволяет акцентировать внимание на временной динамике и эффективно обучаться в условиях, когда стандартные алгоритмы демонстрируют нестабильность и неточность оценок, что особенно актуально для задач, где среднее значение по времени имеет решающее значение для достижения оптимальной политики.

Метод повторных проигрываний (Repetitions Training) акцентирует внимание на временной динамике обучения, многократно представляя агенту одни и те же временные шаги. Такой подход позволяет агенту эффективно усваивать закономерности, связанные с долгосрочным ростом, что особенно важно в неэргодичных средах. Многократное повторение конкретных временных шагов способствует более точному вычислению ожидаемых значений и снижению дисперсии в оценках, что в свою очередь улучшает стабильность политики и позволяет агенту более эффективно использовать накопленный опыт для прогнозирования будущих состояний и вознаграждений. Это позволяет агенту адаптироваться к средам, в которых стандартные алгоритмы обучения с подкреплением сталкиваются с трудностями из-за неточности оценок и нестабильности.

Метод повторных тренировок позволяет агентам эффективно функционировать в неэргодичных средах, в отличие от стандартных методов обучения с подкреплением, которые дают неточные оценки и нестабильные политики. Экспериментальные данные, представленные на рисунке 3b, демонстрируют значительное смещение точки безразличия, что указывает на улучшенное принятие решений в условиях неопределенности. Кроме того, наблюдаемое снижение среднеквадратичной ошибки (MSE) с увеличением числа повторений, как показано на рисунке 5, подтверждает, что метод позволяет агенту более точно оценивать долгосрочные последствия своих действий и стабилизировать процесс обучения в неэргодичных условиях.

Обучение с использованием предложенного метода, учитывающего зависимость от траектории, позволяет агентам, использующим модель обучения с подкреплением «актер-критик», освоить оптимальную стратегию, предписанную критерием Келли.

Глубокое Обучение для Надежного Принятия Решений

Глубокое обучение с подкреплением (DRL) представляет собой расширение традиционных методов обучения с подкреплением, в котором глубокие нейронные сети используются в качестве аппроксиматоров функций. Это позволяет алгоритмам обучаться сложным функциям ценности, которые оценивают ожидаемую совокупную награду за выполнение определенных действий в заданном состоянии. В отличие от традиционных подходов, требующих ручного определения функций, DRL автоматически извлекает признаки из необработанных данных, что значительно расширяет возможности обучения в сложных, многомерных пространствах состояний. Использование глубоких нейронных сетей позволяет алгоритмам эффективно обобщать знания и адаптироваться к новым ситуациям, что делает DRL особенно полезным в задачах, где пространство состояний слишком велико для применения традиционных методов, таких как обработка изображений или управление роботами.

Методы, такие как сети глубокого обучения с подкреплением (Deep Q-Networks, DQN) и модели «актер-критик», используют возможности глубокого обучения для оценки Q-функций и оптимизации стратегий принятия решений в пространствах состояний высокой размерности. В отличие от традиционных методов обучения с подкреплением, которые испытывают трудности при работе с большим количеством возможных состояний, DQN и «актер-критик» применяют глубокие нейронные сети в качестве аппроксиматоров функций, позволяя эффективно обобщать полученный опыт и находить оптимальные стратегии даже в сложных и непредсказуемых средах. Использование глубоких нейронных сетей позволяет агентам эффективно извлекать признаки из необработанных данных, что значительно повышает производительность и адаптируемость в широком спектре задач, начиная от управления роботами и заканчивая сложными играми.

Архитектуры глубокого обучения, объединенные с методом повторных тренировок (Repetitions Training), представляют собой эффективный инструмент для решения задач в неэргодических средах и достижения устойчивого принятия решений в сложных условиях. Данный подход позволяет преодолеть ограничения традиционных алгоритмов, которые испытывают трудности в ситуациях, когда статистические свойства среды меняются во времени. В результате применения повторных тренировок, политики, разработанные с использованием глубокого обучения, демонстрируют сходимость к полной аппроксимации оптимальной стратегии, соответствующей критерию Келли $\frac{1}{1+e^{-v}}$ , что обеспечивает максимальное долгосрочное вознаграждение и минимизирует риски в условиях неопределенности. Такой симбиоз глубокого обучения и повторных тренировок открывает новые возможности для создания интеллектуальных систем, способных адаптироваться и эффективно функционировать в динамически меняющихся обстоятельствах.

Обучение с помощью Actor-Critic модели показало, что агенты способны осваивать полные стратегии управления портфелем с приемлемой точностью, даже при случайном выборе параметра <span class="katex-eq" data-katex-display="false">pp</span>, определяющего вероятность получения прибыли от инвестиций. — Обучение с помощью Actor-Critic модели показало, что агенты способны осваивать полные стратегии управления портфелем с приемлемой точностью, даже при случайном выборе параметра $pp$ , определяющего вероятность получения прибыли от инвестиций.

В исследовании подчеркивается, что стандартные алгоритмы обучения с подкреплением испытывают трудности в неэргодических средах из-за их зависимости от усредненных ожидаемых значений. Данный подход, по сути, игнорирует временную динамику, что приводит к субоптимальным результатам. Роберт Тарьян однажды заметил: «Всё, что построено, когда-нибудь начнёт само себя чинить». Эта фраза находит отклик в предложенном решении — повторении эпизодов обучения. Повторяя эпизоды, агент неявно учитывает временные зависимости, позволяя системе адаптироваться и корректировать свою политику, что, в конечном итоге, можно рассматривать как процесс самовосстановления, даже в условиях нестабильной динамики. Такой подход демонстрирует, что системы могут адаптироваться к изменяющимся условиям, если им предоставить возможность учиться на повторениях и выявлять закономерности во времени.

Что Дальше?

Представленная работа обнажает фундаментальную слабость современных систем обучения с подкреплением: склонность экстраполировать стабильность в динамике, которой не существует. Системы, ориентированные на усредненное во времени вознаграждение, неизбежно строят хрупкие пророчества о будущем, которые рушатся при малейшем отклонении от предположенной стационарности. Повторение эпизодов — это не решение, а лишь временное смягчение симптомов. Это осознанное культивирование страха перед ошибкой, а не поиск истинной устойчивости.

Истинная задача, очевидно, заключается не в укрощении неэргодичности, а в принятии её как базовой характеристики реальности. Следующий шаг — разработка архитектур, которые не стремятся к усреднению, а оперируют с распределениями состояний и вознаграждений напрямую. Системы, способные не предсказывать, а адаптироваться к постоянно меняющейся динамике, пусть и ценой частичной потери эффективности в “благоприятных” условиях.

Настоящая устойчивость, как показывает данное исследование, начинается там, где заканчивается уверенность. Не в оптимизации ожидаемого значения, а в понимании границ применимости любой модели. Следует признать, что любая система — это не инструмент, а растущая экосистема, предрасположенная к сбоям. И задача исследователя — не строить непроницаемые крепости, а культивировать способность к быстрому восстановлению.

Оригинал статьи: https://arxiv.org/pdf/2601.08726.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-14 16:24