Две головы – лучше, чем одна: извлечение знаний из больших языковых моделей

Автор: Денис Аветисян


Новый подход позволяет эффективно передавать знания от крупных моделей к компактным, повышая их производительность в сложных задачах.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
С помощью декомпозиции ортогольных признаков и варьирования трех отвязывающих переменных, сложные признаки больших языковых моделей преобразуются в более простые компоненты и дистиллируются в специализированные малые модели, демонстрируя возможность фрагментации и перераспределения знаний для повышения эффективности.
С помощью декомпозиции ортогольных признаков и варьирования трех отвязывающих переменных, сложные признаки больших языковых моделей преобразуются в более простые компоненты и дистиллируются в специализированные малые модели, демонстрируя возможность фрагментации и перераспределения знаний для повышения эффективности.

В данной работе представлена методика CMM, использующая ортогональное разложение признаков и Hájek-MoE для улучшения производительности в задачах маркет-мейкинга.

Несмотря на успехи больших языковых моделей (LLM) в различных областях, их применение в задачах, требующих высокой скорости вычислений, остается сложной задачей. В данной работе, ‘Two Heads are Better than One: Distilling Large Language Model Features Into Small Models with Feature Decomposition and Mixture’, предложен новый подход к дистилляции знаний из LLM для алгоритмической торговли, основанный на разложении сложных признаков на ортогональные компоненты и использовании смеси экспертов. Предлагаемый фреймворк CMM демонстрирует превосходство над существующими методами дистилляции и стратегиями обучения с подкреплением в задачах создания маркет-мейкеров. Сможет ли данный подход открыть новые возможности для эффективного использования LLM в высокочастотной торговле и других финансовых приложениях?


Разрушая Границы: Ограничения Традиционного Маркет-Мейкинга

Современные алгоритмы маркет-мейкинга, использующие обучение с подкреплением, демонстрируют ограниченную адаптивность в сложных рыночных условиях. Традиционные подходы неэффективны при обработке нелинейных зависимостей и взаимодействий, влияющих на ликвидность. Существующие методы не обладают достаточным пониманием взаимодействий признаков, что критично для оптимального обеспечения ликвидности, особенно при высокой волатильности. Неспособность улавливать нюансы рыночной динамики снижает эффективность и упускает возможности. Подобно взлому системы, глубокое понимание рыночных взаимодействий открывает новые возможности управления ликвидностью.

Эксперимент показывает, что использование большой языковой модели (LLM) для прогнозирования будущих цен, спредов и объемов позволяет превзойти традиционные алгоритмы обучения с подкреплением, а предложенный метод дистилляции дополнительно улучшает производительность для использования в реальном времени.
Эксперимент показывает, что использование большой языковой модели (LLM) для прогнозирования будущих цен, спредов и объемов позволяет превзойти традиционные алгоритмы обучения с подкреплением, а предложенный метод дистилляции дополнительно улучшает производительность для использования в реальном времени.

Внутренняя сложность финансовых данных требует изощренных подходов к извлечению признаков и прогнозированию. Простое применение стандартных алгоритмов машинного обучения часто недостаточно для моделирования рыночных процессов.

Кооперативный Маркет-Мейкинг: Новая Архитектура

Предлагается фреймворк ‘Cooperative Market Making’ (CMM), использующий большие языковые модели (LLM) для извлечения и декомпозиции признаков, релевантных для прогнозирования цены. В основе фреймворка – дистилляция ортогональной декомпозиции признаков, позволяющая LLM разделять признаки по слою, задаче и типу данных. Ключевым элементом является способность LLM понимать сложные взаимосвязи в пространстве признаков. Дистилляция знаний в более мелкие модели обеспечивает вычислительную эффективность без потери прогностической силы.

Предложенная структура CMM декомпозирует сложное пространство признаков LLM по трем измерениям – слою, задаче и данным – и использует специализированные небольшие модели для обучения каждого типа признаков, эффективно представляя полное пространство признаков LLM коллекцией меньших моделей, а механизм Hájek-MoE агрегирует прогнозы моделей на основе их уверенности, полученной с помощью kernel-функции.
Предложенная структура CMM декомпозирует сложное пространство признаков LLM по трем измерениям – слою, задаче и данным – и использует специализированные небольшие модели для обучения каждого типа признаков, эффективно представляя полное пространство признаков LLM коллекцией меньших моделей, а механизм Hájek-MoE агрегирует прогнозы моделей на основе их уверенности, полученной с помощью kernel-функции.

Механизм Hájek-MoE агрегирует прогнозы моделей на основе уверенности, вычисленной kernel-функцией, комбинируя сильные стороны различных моделей и повышая точность прогнозирования. Эффективное представление пространства признаков LLM коллекцией меньших моделей снижает вычислительные затраты и масштабируемость фреймворка CMM.

Анатомия LLM: Слои, Задачи и Адаптация

Для анализа иерархии признаков в больших языковых моделях (LLM) разработан метод, использующий «Нормализованный флуоресцентный зонд». Этот подход позволяет выявить критические взаимосвязи между слоями модели, решаемыми задачами и используемыми данными, определяя специализацию слоев в извлечении признаков для прогнозирования ключевых параметров рынка. Результаты показали, что различные слои LLM специализируются на прогнозировании конкретных параметров: поверхностные – средней цены, средние – спреда, глубокие – объема. Это обеспечивает специализацию задач, повышая точность прогнозирования.

Результаты анализа показывают, что при усилении условий разделения признаки LLM демонстрируют более четкое разделение на кластеры, причем наблюдается специализация по глубине модели: поверхностные слои приоритезируют прогнозирование средней цены, средние – спреда, а глубокие – общего объема.
Результаты анализа показывают, что при усилении условий разделения признаки LLM демонстрируют более четкое разделение на кластеры, причем наблюдается специализация по глубине модели: поверхностные слои приоритезируют прогнозирование средней цены, средние – спреда, а глубокие – общего объема.

Понимание реакции LLM на различные режимы данных (Data Market Regimes) критично для обеспечения стабильной производительности в волатильных условиях. Анализ выявил, что способность модели адаптироваться к меняющимся режимам данных коррелирует с точностью прогнозирования.

Микстура Экспертов: Синергия Малых Моделей

Для оптимизации подхода используется интеграция результатов, полученных от специализированных экземпляров ‘Small Model’ с применением Hajek Projection-based Mixture-of-Experts. Данный метод позволяет объединить предсказания различных моделей, повышая общую точность и надежность системы. В основе подхода лежит использование Kernel Functions для проецирования признаков в общее пространство, обеспечивая эффективную комбинацию предсказаний и учитывая сильные стороны различных моделей.

Предложенная структура CMM обеспечивает улучшение показателя Episodic Profit and Loss (EPnL) на 31.39% по сравнению с исходной LLM, при этом задержка снижается в 6.3 раза до 0.3 секунды.
Предложенная структура CMM обеспечивает улучшение показателя Episodic Profit and Loss (EPnL) на 31.39% по сравнению с исходной LLM, при этом задержка снижается в 6.3 раза до 0.3 секунды.

Общий эффект архитектуры – значительное улучшение ликвидности и снижение транзакционных издержек, достигаемое за счет точного прогнозирования рыночных тенденций и оптимизации стратегий торговли.

Интеллектуальная Ликвидность: Взгляд в Будущее

Представленная работа демонстрирует потенциал больших языковых моделей (LLM) для революции в финансовом моделировании и маркет-мейкинге. Разработанный фреймворк позволяет создавать интеллектуальные системы для обеспечения ликвидности, способные адаптироваться к динамике рынка в режиме реального времени, открывая путь к созданию новых подходов к автоматизированной торговле. В ходе тестирования на датасете RB фреймворк достиг показателя PnLMAP в 298, свидетельствуя о высокой эффективности и способности генерировать прибыль в реальных рыночных условиях.

Будущие исследования будут направлены на расширение фреймворка за счет включения альтернативных источников данных и более сложных торговых стратегий. Принципы, лежащие в основе данной работы, применимы к широкому спектру задач сложного прогнозирования, выходящих за рамки финансовой сферы. Развитие данного направления позволит создавать универсальные системы интеллектуального анализа данных для решения задач в различных областях науки и техники.

Исследование представляет собой своеобразный вызов устоявшимся подходам к моделированию рынков. Авторы не просто используют большие языковые модели, но и подвергают их деконструкции, выделяя ключевые признаки и интегрируя их посредством метода, напоминающего смешение экспертов. Это подобно попытке понять сложный механизм, разобрав его на простые компоненты и собрав заново, но уже более эффективно. Дональд Дэвис однажды заметил: «Если вы не можете описать что-то простыми словами, значит, вы сами этого не понимаете». В данном случае, декомпозиция признаков, предложенная в статье, – это и есть стремление к простоте понимания сложной системы, к выделению наиболее существенных элементов для достижения оптимальной производительности в процессе рыночного ценообразования. Метод CMM, используя ортогональную декомпозицию, демонстрирует, что даже из сложных моделей можно извлечь более ясные и эффективные компоненты, упрощая процесс принятия решений.

Что дальше?

Представленная работа, хоть и демонстрирует впечатляющие результаты в контексте создания маркет-мейкеров, лишь аккуратно приоткрывает дверь в пространство, где сложные представления знаний больших языковых моделей (LLM) можно эффективно переносить в более компактные системы. Следующим логичным шагом представляется не просто декомпозиция признаков, а их динамическая реконфигурация – создание систем, способных адаптировать состав и вес декомпозированных компонентов в зависимости от контекста и решаемой задачи. Каждый эксплойт начинается с вопроса, а не с намерения, и здесь вопрос в том, насколько далеко можно зайти в упрощении, не потеряв при этом ключевую информацию.

Особое внимание следует уделить исследованию ограничений метода Hájek-MoE в сценариях с высокой степенью неопределенности и неполнотой данных. Сможет ли подобный подход эффективно работать за пределами контролируемой среды, где рыночные условия подвержены внезапным и непредсказуемым изменениям? Более того, стоит задуматься о возможности применения представленных принципов не только для финансовых инструментов, но и для других областей, требующих быстрого принятия решений в условиях ограниченных ресурсов.

В конечном счете, истинная ценность данной работы заключается не в достигнутых результатах, а в поставленных вопросах. Изучение пределов применимости методов декомпозиции и смешивания признаков, поиск новых способов представления знаний и адаптации к изменяющимся условиям – вот куда должна двигаться эта область исследований. Попытка «взломать» сложность, разобрав её на части и собрав заново, может привести к неожиданным и полезным открытиям.


Оригинал статьи: https://arxiv.org/pdf/2511.07110.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-11 20:35