Наука — Страница 279 — Прогноз курса

Оптимальное исполнение ордеров: обучение с подкреплением в моделировании биржевых очередей

20.11.2025 от Рэй Далио

Тепловая карта демонстрирует относительное изменение средней награды агента, обученного с подкреплением, по сравнению с эталонным алгоритмом TWAP, рассчитанное на основе 10 000 симуляций, что позволяет оценить эффективность стратегии агента в различных сценариях.

Новое исследование демонстрирует, как алгоритмы обучения с подкреплением могут значительно улучшить стратегии оптимального исполнения ордеров на финансовых рынках.

Синтез табличных данных: от универсальных решений к адаптивным нейросетям

19.11.2025 от Рэй Далио

Модель MargNet инициализируется с использованием всех однонаправленных маржинальных распределений, после чего осуществляется адаптивный отбор маржинальных распределений и подгонка модели, что позволяет синтезировать данные.

Новый подход к генерации конфиденциальных табличных данных позволяет превзойти существующие методы, особенно при работе со сложными, сильно коррелированными наборами.

Искусственный интеллект и манипуляции: как алгоритмы справедливого распределения становятся уязвимыми

19.11.2025 от Рэй Далио

Новое исследование показывает, что системы, призванные обеспечить честное разделение ресурсов, могут быть подвержены координированным манипуляциям с помощью современных языковых моделей.

Искусственный интеллект на бирже: новая модель для анализа рыночных данных

19.11.2025 от Рэй Далио

LOBERT демонстрирует уникальную архитектуру, позволяющую эффективно моделировать длинные последовательности, что достигается за счет оптимизированного внимания и эффективного представления контекста, что существенно повышает производительность в задачах, требующих понимания сложных взаимосвязей между элементами последовательности.

Исследователи представили LOBERT — генеративную модель, способную эффективно обрабатывать и прогнозировать изменения в книгах лимитных ордеров.

Поиск аномалий во временных рядах: новый подход с обучением с подкреплением

18.11.2025 от Рэй Далио

$В предложенном методе, динамическая система вознаграждений комбинирует ошибку реконструкции, полученную из автоэнкодера, и классификационные вознаграждения, генерируемые LSTM-сетью с алгоритмом обучения с подкреплением, используя адаптивный коэффициент $ \lambda(t) $ для балансировки между исследованием новых данных и использованием уже известных, при этом активный цикл обучения запрашивает разметку наиболее неопределенных фрагментов данных для минимизации объема необходимой ручной разметки.$

Исследователи предлагают инновационную систему, сочетающую вариационные автокодировщики и обучение с подкреплением для точного выявления отклонений в многомерных временных данных.