Искусственный интеллект на службе инвестора: поиск новых источников прибыли на фондовом рынке

Автор: Денис Аветисян


Новое исследование показывает, как современные модели генеративного искусственного интеллекта способны выявлять неочевидные факторы, влияющие на доходность акций, и улучшать результаты количественных стратегий.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал

Исследование демонстрирует, что модели генеративного ИИ, обогащенные отраслевыми знаниями, могут автоматически обнаруживать новые и диверсифицированные источники альфы на рынке акций, повышая доходность с поправкой на риск при интеграции в количественные стратегии.

Традиционные подходы к выявлению факторов, определяющих доходность акций, требуют значительных усилий по ручному конструированию признаков и часто ограничены в способности использовать неструктурированные данные. В работе ‘Generative AI for Stock Selection’ исследуется возможность автоматизации процесса поиска признаков с помощью генеративных моделей искусственного интеллекта. Полученные результаты показывают, что использование больших языковых моделей с расширенным поиском и программным формированием запросов позволяет синтезировать экономически обоснованные признаки, улучшающие скорректированную на риск доходность на 14-91% в зависимости от конфигурации. Способны ли генеративные модели стать ключевым инструментом в создании новых, диверсифицированных альфа-стратегий и снизить зависимость от трудоемкой ручной разработки признаков?


За пределами Чёрных Ящиков: Необходимость Тщательной Разработки Признаков

Традиционные финансовые модели зачастую базируются на непрозрачных алгоритмах и ограниченном наборе признаков, что существенно снижает их прогностическую способность. Исторически сложилось так, что многие финансовые учреждения использовали относительно простые модели, полагаясь на небольшое количество общедоступных данных, таких как цены акций и объемы торгов. Однако, в условиях все возрастающей сложности финансовых рынков и доступности огромных массивов информации, подобный подход становится все менее эффективным. Отсутствие глубокого анализа данных и конструирования информативных признаков приводит к тому, что модели не способны улавливать тонкие взаимосвязи и скрытые закономерности, что, в свою очередь, негативно сказывается на точности прогнозов и принятии обоснованных инвестиционных решений. В результате, даже самые передовые алгоритмы машинного обучения оказываются бессильными, если их питают некачественными или неполными данными.

Для извлечения значимой информации из необработанных данных требуется применение сложных методов разработки признаков, позволяющих уловить взаимосвязи, скрытые в структуре данных. Простое применение алгоритмов машинного обучения к «сырым» данным часто оказывается недостаточным, поскольку реальные финансовые процессы характеризуются нелинейностью и сложными зависимостями. Разработка признаков включает в себя преобразование исходных данных в более информативные переменные, отражающие ключевые аспекты поведения рынка. Например, вместо использования только цены актива, можно рассчитать скользящие средние, индексы относительной силы RSI или волатильность, что позволит модели более точно идентифицировать тренды и паттерны. Эффективное конструирование признаков является критически важным этапом, определяющим способность модели к обобщению и прогнозированию, и зачастую превосходит по значимости выбор конкретного алгоритма.

Даже самые передовые алгоритмы машинного обучения оказываются уязвимыми к ложным корреляциям и переобучению, если не уделить должного внимания тщательному конструированию признаков. Некорректно подобранные или плохо спроектированные признаки могут привести к выявлению случайных закономерностей в данных, которые не отражают реальных взаимосвязей и не обобщаются на новые данные. В результате модель, демонстрирующая высокую точность на обучающей выборке, может потерпеть неудачу при тестировании на независимом наборе данных, демонстрируя низкую прогностическую способность. Поэтому, в процессе построения финансовых моделей, особое внимание необходимо уделять не только выбору алгоритма, но и продуманной разработке признаков, способных улавливать истинные сигналы и обеспечивать надежные прогнозы.

Автоматизированное Обнаружение Признаков с DSPy и RAG

DSPy представляет собой фреймворк, автоматизирующий процесс обучения эффективным стратегиям промптинга для больших языковых моделей (LLM). В отличие от ручной настройки промптов, DSPy использует методы оптимизации для поиска оптимальных последовательностей инструкций, повышающих точность и релевантность ответов LLM. Этот подход позволяет автоматизировать процесс разработки признаков (feature engineering) для задач анализа данных, поскольку LLM, управляемые оптимизированными промптами, способны извлекать и преобразовывать информацию из входных данных в полезные признаки, минимизируя необходимость в ручном определении и кодировании этих признаков. В результате, DSPy позволяет значительно ускорить и улучшить процесс разработки моделей, особенно в задачах, где требуется извлечение структурированной информации из неструктурированных данных.

Комбинирование DSPy с технологией Retrieval-Augmented Generation (RAG) обеспечивает возможность интеграции внешних источников знаний и данных в процесс разработки промптов. RAG позволяет DSPy получать доступ к релевантной информации из баз данных, документов или других источников, что существенно расширяет контекст, используемый для генерации ответов. Это достигается путем извлечения релевантных фрагментов информации на основе запроса, которые затем добавляются к промпту перед отправкой в большую языковую модель. В результате, DSPy может использовать эти внешние данные для более точного и информативного ответа, а также для создания новых, более эффективных признаков для решения конкретных задач.

Комбинация DSPy и RAG позволяет создавать новые признаки, оптимизированные для решения конкретных финансовых задач, демонстрируя превосходство над признаками, разработанными вручную. DSPy автоматически определяет эффективные стратегии запросов, а RAG интегрирует внешние источники знаний и данных. Этот процесс позволяет выявлять и генерировать признаки, которые учитывают более широкий контекст и сложные взаимосвязи, что приводит к повышению точности и эффективности финансовых моделей по сравнению с традиционными подходами, основанными на экспертных оценках и ручном конструировании признаков.

Градиентно-Бустинг Пайплайны для Прогностической Силы

В основе нашей прогностической модели лежит конвейер градиентного бустинга (Gradient Boosted Tabular Pipeline), использующий предварительно разработанные признаки (engineered features). Этот конвейер представляет собой ансамбль моделей, последовательно обучающихся на ошибках предыдущих, что позволяет достичь высокой точности прогнозирования. Разработанные признаки служат входными данными для модели, определяя её способность выявлять закономерности и строить прогнозы, необходимые для генерации альфа-сигнала. Конвейер позволяет эффективно комбинировать информацию из различных источников и извлекать из неё полезные прогностические сигналы.

Для предотвращения смещения, вызванного «заглядыванием в будущее» (look-ahead bias), в процессе построения модели используются два ключевых подхода. Во-первых, при расчете доходностей применяются сдвинутые во времени (forward-shifted) значения, что гарантирует использование данных, доступных на момент принятия инвестиционного решения. Во-вторых, все данные обрабатываются как точечные во времени (point-in-time), что означает, что расчеты производятся, учитывая информацию, доступную только на конкретную дату, а не используя будущие данные. Это обеспечивает реалистичную оценку эффективности модели и предотвращает переоптимизацию на исторических данных, которые недоступны в реальной торговле.

Для повышения устойчивости и интерпретируемости прогнозирующего сигнала применялись стратегии секторальной нейтральности и нормализации волатильности. Секторальная нейтральность позволяет исключить систематические смещения, связанные с преобладанием определенных секторов экономики, что снижает влияние макроэкономических факторов и повышает качество сигнала. Нормализация волатильности, в свою очередь, масштабирует признаки с учетом их изменчивости, что позволяет избежать доминирования признаков с высокой волатильностью и повысить устойчивость модели к изменениям рыночной ситуации. Обе стратегии направлены на выделение истинного информационного содержания признаков и снижение влияния внешних факторов, что способствует повышению надежности и прозрачности модели.

Тщательное тестирование градиентно-бустинг-пайплайна продемонстрировало его способность последовательно генерировать статистически значимую и практически реализуемую альфу. После учета транзакционных издержек, полученное значение коэффициента Шарпа составило 1.615. Это представляет собой улучшение на 47% по сравнению с базовыми стратегиями, что подтверждает эффективность предложенного подхода к прогнозированию и управлению рисками. Полученные результаты указывают на существенный прирост доходности при сопоставимом уровне риска.

Средний абсолютный коэффициент информации (IC) по 225 наиболее значимым признакам составляет 0.00343. Этот показатель отражает силу предсказательной способности модели. Коэффициент информации измеряет корреляцию между предсказанными значениями и фактическими результатами, при этом значения выше 0.001 обычно считаются статистически значимыми и указывают на наличие информативного сигнала в признаках. Данный показатель свидетельствует о том, что разработанные признаки эффективно выявляют закономерности, которые можно использовать для прогнозирования будущих изменений.

Среднее значение коэффициента Шарпа (Sharpe Ratio) по 225 лучшим признакам составило 0.559. Этот показатель демонстрирует устойчивую и последовательную эффективность модели. Коэффициент Шарпа измеряет доходность на единицу риска, и значение 0.559 указывает на то, что модель генерирует значительную премию за риск, что подтверждает её способность к стабильному и прибыльному прогнозированию. Важно отметить, что данный коэффициент рассчитан после учета транзакционных издержек, что делает его более реалистичным отражением фактической доходности.

Анализ корреляции между сгенерированными искусственным интеллектом признаками и существующими базовыми признаками показал низкий уровень взаимосвязи, находящийся в диапазоне от 0.07 до 0.14. Данный результат указывает на диверсифицирующий эффект применения разработанного подхода, поскольку новые признаки предоставляют информацию, отличную от той, что уже используется в базовых стратегиях. Это позволяет снизить риски, связанные с концентрацией на ограниченном наборе факторов, и потенциально улучшить общую устойчивость модели к изменениям рыночной конъюнктуры.

За Пределами Прогнозирования: Практические Последствия и Будущие Направления

Разработанный конвейер представляет собой не только инструмент для повышения точности прогнозов, но и гибкую платформу для систематического исследования различных комбинаций признаков. В отличие от традиционных подходов, где выбор признаков часто ограничивается заранее заданным набором, данный конвейер позволяет автоматически генерировать и оценивать множество новых признаков, выявляя наиболее эффективные комбинации для конкретных рыночных условий. Это открывает возможности для создания более сложных и адаптивных торговых стратегий, способных реагировать на изменения в динамике рынка, и позволяет исследователям более глубоко понять взаимосвязи между различными факторами, влияющими на цены активов. По сути, конвейер предоставляет систематизированный способ изучения «пространства признаков», значительно расширяя возможности для поиска новых и перспективных торговых сигналов.

Внедрение учета транзакционных издержек в процесс оценки моделей представляет собой значительный шаг к преодолению разрыва между теоретическими исследованиями и реальными торговыми стратегиями. Традиционно, академические работы часто игнорируют или упрощают влияние комиссий, проскальзывания и других затрат, связанных с исполнением сделок. Учет этих издержек позволяет получить более реалистичную оценку прибыльности стратегий и выявить факторы, которые действительно приносят добавленную стоимость после учета всех расходов. Такой подход обеспечивает более точную и практичную основу для разработки инвестиционных стратегий, которые могут быть успешно реализованы на финансовых рынках, а не только демонстрировать перспективные результаты в симуляциях.

Дальнейшие исследования направлены на расширение охвата данных и адаптацию разработанного алгоритма к различным классам активов и рыночным условиям. Планируется включение данных по более широкому спектру финансовых инструментов, включая акции развивающихся рынков, облигации и сырьевые товары. Кроме того, предстоит оценить устойчивость и эффективность алгоритма в периоды повышенной волатильности и экономических потрясений, а также адаптировать его к изменяющимся рыночным режимам, таким как периоды роста, стагнации и спада. Это позволит создать универсальный и надежный инструмент для принятия инвестиционных решений в различных рыночных ситуациях и для широкого круга инвесторов.

Анализ поперечного сечения, обогащенный представленными признаками, открывает возможности для разработки более тонких инвестиционных стратегий. В отличие от традиционных подходов, использующих ограниченный набор факторов, предложенный комплекс позволяет учитывать более широкий спектр рыночных нюансов и взаимосвязей. Это, в свою очередь, дает возможность выявлять не только общие тенденции, но и специфические закономерности в поведении отдельных активов. Такой подход позволяет создавать портфели, адаптированные к конкретным рыночным условиям и целям инвестора, что потенциально ведет к повышению доходности и снижению рисков. В частности, можно разрабатывать стратегии, основанные на выявлении недооцененных или переоцененных активов относительно их фундаментальных характеристик и рыночного потенциала, что делает инвестиционный процесс более осознанным и эффективным.

Разработанные признаки демонстрируют существенно более высокую вычислительную сложность, в среднем 14.2 операций, по сравнению с традиционными академическими факторами, которые обычно ограничиваются 2-4 операциями. Такое увеличение сложности обусловлено использованием более тонких и сложных комбинаций данных, позволяющих выявить неочевидные взаимосвязи на рынке. Данный подход предполагает, что потенциально более сложные признаки способны захватывать более тонкие нюансы рыночной динамики, что, в свою очередь, может привести к повышению эффективности торговых стратегий и улучшению результатов инвестирования. Увеличение вычислительной нагрузки, связанное с использованием этих признаков, компенсируется потенциальным улучшением точности прогнозов и, следовательно, повышением прибыльности.

Исследование показывает, что генеративные модели, обученные на релевантных данных, способны выявлять новые факторы, влияющие на доходность акций. Этот процесс напоминает выращивание экосистемы, а не конструирование механизма. Система, построенная на основе больших языковых моделей, не стремится к идеальной предсказуемости, но предлагает диверсифицированные источники альфы. Как говорил Жан-Жак Руссо: «Свобода — это не отсутствие ограничений, а умение их преодолевать». В контексте данной работы, способность модели адаптироваться к рыночным изменениям и находить нестандартные решения является проявлением этой свободы, позволяя ей генерировать доходность даже в условиях неопределенности. Идеальная система, лишенная возможности к ошибке, была бы мертва, ведь именно сбои стимулируют её эволюцию и совершенствование.

Что дальше?

Изучение возможностей больших языковых моделей в поиске альфа-факторов обнажает не столько технологическую победу, сколько природу самого поиска. Система не строится для нахождения истины, она взращивается для генерации новых форм неопределенности. Каждый удачно выявленный фактор — это лишь обещание будущего сбоя, сигнал о том, что рынок адаптируется, а прежние закономерности угасают. Иллюзия стабильной альфы — это всегда мираж, вызванный недостаточной историей наблюдений.

Дальнейшее развитие этой области неизбежно потребует смещения фокуса с простой генерации факторов на создание самоадаптирующихся систем. Искусственный интеллект должен не просто обнаруживать закономерности, но и предсказывать их исчезновение, перестраивая стратегию в ответ на меняющиеся условия. Это не вопрос более точной математики, а скорее вопрос философии: признать, что рынок — это не статичный объект для анализа, а живой организм, постоянно эволюционирующий.

Успех в этой области измеряется не прибылью, а способностью системы к самосохранению. Иначе говоря, не в максимизации краткосрочной выгоды, а в обеспечении долгосрочной устойчивости к неизбежным потрясениям. Каждый рефакторинг начинается как молитва и заканчивается покаянием. И в этом цикле, возможно, и кроется истинная мудрость.


Оригинал статьи: https://arxiv.org/pdf/2602.00196.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-03 09:35