Финансовый интеллект: Как обучить ИИ понимать деньги

Автор: Денис Аветисян


Новая система, объединяющая знания из различных источников, значительно улучшает способность искусственного интеллекта отвечать на сложные финансовые вопросы.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
В наборе данных FinQA представлены пары вопросов и ответов, предназначенные для оценки способности систем понимать финансовую информацию и извлекать конкретные сведения из текста.
В наборе данных FinQA представлены пары вопросов и ответов, предназначенные для оценки способности систем понимать финансовую информацию и извлекать конкретные сведения из текста.

В статье представлен подход RAG, использующий внутренние и внешние финансовые знания для повышения точности численного анализа больших языковых моделей в задачах финансового QA.

Несмотря на значительный прогресс в области больших языковых моделей (LLM), задачи финансового вопросно-ответного анализа, требующие численного рассуждения, остаются сложными из-за недостатка специализированных знаний. В данной работе, ‘Integrating Domain Knowledge for Financial QA: A Multi-Retriever RAG Approach with LLMs’, предложена система RAG, объединяющая внутренние контексты вопросов и внешние финансовые знания для улучшения численного рассуждения LLM. Полученные результаты демонстрируют достижение передовых показателей в решении финансовых задач, превосходящие существующие решения и подчеркивающие важность доменно-специфичного обучения. Какие перспективы открывает интеграция внешних знаний для дальнейшего повышения точности и надежности LLM в сложных финансовых приложениях?


Временные Затруднения: Сложность Финансового Рассуждения

Точное решение финансовых вопросов представляет собой сложную задачу для современных моделей искусственного интеллекта, поскольку требует одновременного понимания специализированной терминологии и выполнения численных расчетов. Недостаточно просто распознать ключевые слова; необходимо интерпретировать их в контексте финансовых принципов и затем применить математические операции для получения корректного ответа. Например, расчет сложного процента или оценка стоимости облигации требует не только знания формул A = P(1 + r/n)^{nt} и PV = \frac{FV}{(1+r)^n} , но и понимания того, какие значения соответствуют каким параметрам в конкретном финансовом сценарии. Эта двойная необходимость — лингвистическое понимание и вычислительная точность — создает значительные трудности для существующих систем, что подчеркивает потребность в более продвинутых подходах к финансовому анализу данных.

Традиционные методы решения задач, требующих финансового численного рассуждения, часто оказываются неэффективными из-за неспособности интегрировать контекстуальные знания. Существующие подходы испытывают трудности не только с выполнением числовых операций, но и с пониманием взаимосвязи между различными финансовыми показателями и условиями задачи. Это приводит к ошибкам в интерпретации данных и, как следствие, к неверным ответам. Сложность заключается в том, что финансовые вопросы часто требуют учета неявных правил, специфической терминологии и понимания влияния внешних факторов, что выходит за рамки возможностей простых алгоритмов и статистических моделей. Неспособность учитывать контекст делает традиционные методы уязвимыми к незначительным изменениям в формулировке задачи, приводя к существенным расхождениям в результатах.

Расширение Горизонтов: Усиление LLM Внешними Знаниями

Генерация с расширенным извлечением (RAG) представляет собой перспективный подход к улучшению возможностей больших языковых моделей (LLM) путем интеграции внешних источников информации. Вместо того чтобы полагаться исключительно на параметры, полученные в процессе обучения, RAG позволяет LLM извлекать релевантные данные из внешних баз знаний, таких как Investopedia, непосредственно перед генерацией ответа. Этот процесс позволяет LLM предоставлять более точную, актуальную и контекстуально обоснованную информацию, особенно в областях, требующих специализированных знаний или часто обновляемых данных. Использование внешних источников снижает зависимость от внутренних знаний модели и повышает ее способность отвечать на вопросы, выходящие за рамки ее первоначального обучения.

Системы, такие как DPR-FAISS (Dense Passage Retrieval — FAISS), обеспечивают высокоэффективный поиск релевантных фрагментов текста из внешних источников. DPR-FAISS использует векторное представление как запроса, так и документов, позволяя быстро находить наиболее близкие по смыслу отрывки. Этот подход, основанный на плотных эмбеддингах и библиотеке FAISS для быстрого поиска ближайших соседей, значительно ускоряет процесс извлечения необходимого внешнего контекста для задач точного ответа на вопросы. Эффективность DPR-FAISS заключается в возможности индексировать большие объемы данных и выполнять поиск с низкой задержкой, что критически важно для приложений, требующих оперативного доступа к актуальной информации.

Набор данных FinRAD представляет собой ценный ресурс для разработки и оценки компонентов поиска информации, используемых в системах, дополняющих большие языковые модели (LLM). Он содержит более 130 тысяч вопросов и ответов, касающихся финансовой тематики, что позволяет обучать и тестировать модели извлечения релевантных отрывков из внешних источников. Набор данных включает в себя вопросы, охватывающие широкий спектр финансовых концепций и терминов, а также соответствующие им отрывки из статей Investopedia, что делает его идеальным для оценки точности и эффективности систем поиска релевантной финансовой информации.

Оптимизация и Интеграция: Достижение Точности

В основе данных систем лежат предварительно обученные языковые модели, такие как BERT, RoBERTa, SpanBERT, GPT-2, T5, GPT-4 и Gemini 1.5 Pro. Эти модели, обученные на обширных текстовых корпусах, демонстрируют развитые возможности в понимании естественного языка, включая семантический анализ, распознавание сущностей и улавливание контекстуальных связей. Использование предварительно обученных моделей позволяет существенно сократить время и вычислительные ресурсы, необходимые для разработки специализированных систем, поскольку большая часть языковых знаний уже заложена в веса модели. Они служат отправной точкой для дальнейшей тонкой настройки и адаптации к конкретным задачам, таким как ответы на вопросы в финансовой сфере.

Тонкая настройка предварительно обученных моделей с использованием специализированных наборов данных, таких как FinQA Dataset, позволяет существенно повысить их производительность в финансовых задачах. Для оптимизации процесса обучения применяются такие методы, как Adam Optimizer, обеспечивающий адаптивную скорость обучения, функция потерь CrossEntropyLoss, минимизирующая расхождение между предсказанными и фактическими значениями, и ReduceLROnPlateau, автоматически снижающий скорость обучения при отсутствии улучшения на валидационном наборе данных. Комбинация этих техник позволяет добиться значительного улучшения метрик точности и эффективности в задачах финансового анализа и ответа на вопросы.

Модели, такие как SecBERT, подвергаются специализированной тренировке на финансовых документах, что позволяет им эффективно обрабатывать и понимать отраслевую терминологию. Использование Gemini 1.5 Pro в сочетании с многокомпонентной системой извлечения информации (RAG) демонстрирует передовую точность выполнения — 68.39% — в задачах финансового числового рассуждения и ответов на вопросы (Financial Numerical Reasoning QA). Данный подход позволяет достичь более высокой производительности в задачах, требующих глубокого понимания финансовых данных и терминологии.

Переход с модели Gemini-1.0-pro на Gemini 1.5 Pro продемонстрировал улучшение точности выполнения задач на 2%. Кроме того, нейро-символическая модель достигла точности 61.24%, незначительно превзойдя результаты, представленные в оригинальной работе по набору данных FinQA, где использовалось 300 эпох обучения. Комбинация SecBERT Internal Retriever и RoBERTa Large показала прирост точности выполнения на 3.46% по сравнению с базовой моделью.

Обучение генератора с кодировщиком SEC-BERT и декодером LSTM демонстрирует снижение потерь в течение 20 эпох.
Обучение генератора с кодировщиком SEC-BERT и декодером LSTM демонстрирует снижение потерь в течение 20 эпох.

Взгляд в Будущее: Преодолевая Границы Извлечения

Несмотря на значительный прогресс, достигнутый благодаря архитектуре Retrieval-Augmented Generation (RAG), дальнейшие исследования направлены на разработку более сложных методов интеграции знаний и рассуждений. Особое внимание уделяется техникам, основанным на генераторах, управляемых запросами (Prompt-based Generators). Эти подходы позволяют не просто извлекать релевантную информацию, но и активно формировать ответы, адаптированные к конкретному контексту запроса. В отличие от простого поиска и дополнения, генераторы, управляемые запросами, способны к более глубокому анализу и синтезу информации, что потенциально приводит к созданию более точных, последовательных и осмысленных финансовых моделей. Разработка таких систем предполагает создание алгоритмов, способных понимать нюансы запроса и эффективно использовать извлеченные знания для формирования обоснованных и аргументированных ответов.

Для создания масштабируемых и надежных систем, критически важным шагом является повышение эффективности поиска релевантных знаний. В этом контексте, применение архитектуры DPR (Dense Passage Retrieval) в сочетании с библиотекой FAISS (Facebook AI Similarity Search) демонстрирует значительные улучшения. DPR позволяет кодировать как запросы, так и фрагменты знаний в плотные векторные представления, что значительно ускоряет процесс сопоставления. FAISS, в свою очередь, предоставляет эффективные алгоритмы и структуры данных для быстрого поиска ближайших соседей в этих векторных пространствах. Такое сочетание позволяет обрабатывать огромные объемы информации, быстро извлекать наиболее релевантные фрагменты и, как следствие, существенно повысить производительность систем, использующих подход Retrieval-Augmented Generation (RAG).

Разработка архитектур нейро-символьных генераторов представляет собой перспективное направление в создании финансовых моделей нового поколения. Данные архитектуры призваны объединить способность нейронных сетей к обучению на больших объемах данных и преимущества символьного рассуждения, обеспечивающего прозрачность и интерпретируемость. В отличие от традиционных «черных ящиков», нейро-символьные модели способны не только выдавать прогнозы, но и объяснять логику, лежащую в основе этих прогнозов, что крайне важно для сферы финансов, где доверие и обоснованность решений имеют первостепенное значение. Интеграция символических правил и логических выводов с мощностью нейронных сетей позволит создавать более надежные и понятные модели, способные учитывать сложные взаимосвязи и риски на финансовых рынках, а также повысить уверенность пользователей в принимаемых решениях.

Представленное исследование демонстрирует, что эффективность систем, даже основанных на передовых моделях, таких как LLM, неизбежно подвержена влиянию времени и контекста. Как отмечает Брайан Керниган, «Простота — это главное. Сложность — это признак плохого дизайна». В данном случае, простота достигается за счет грамотного использования как внутренних, так и внешних источников знаний, что позволяет LLM более точно отвечать на финансовые вопросы, требующие численного анализа. Система, интегрирующая различные типы знаний, проявляет большую устойчивость к изменениям в данных и требованиям, чем системы, полагающиеся только на один источник. Эта архитектура позволяет отсрочить неизбежное устаревание, обеспечивая более длительный период эффективной работы.

Что дальше?

Представленная работа, как и любая попытка упорядочить поток информации, лишь временно отсрочила неизбежное. Улучшение численного рассуждения больших языковых моделей посредством интеграции внешних знаний — это, безусловно, шаг вперед, но стабильность этой «улучшенности» — иллюзия, закэшированная временем. Каждый запрос — это, в конечном счете, налог, уплачиваемый за доступ к этой кэшированной стабильности, и задержка — его неизбежная составляющая.

Ключевым вопросом остается не столько повышение точности ответов, сколько понимание границ применимости этих систем. Эффективность представленного подхода, безусловно, ограничена качеством и структурированностью финансовых словарей, а также способностью модели к символьному рассуждению. Будущие исследования должны быть направлены на разработку систем, способных не просто извлекать информацию, но и критически оценивать ее достоверность, учитывая контекст и потенциальные источники ошибок.

В конечном счете, любые системы стареют — вопрос лишь в том, делают ли они это достойно. Очевидно, что совершенствование архитектуры RAG и расширение наборов знаний — это лишь временные меры. Подлинный прогресс потребует радикального переосмысления самой концепции «интеллекта» и признания того, что истинное понимание — это не просто обработка данных, а способность адаптироваться к постоянно меняющейся среде.


Оригинал статьи: https://arxiv.org/pdf/2512.23848.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-01 10:28