Искусственный интеллект для финансов: обучение на синтетических данных

Автор: Денис Аветисян

Новый подход к созданию обучающих наборов данных позволяет значительно улучшить способность языковых моделей решать сложные задачи в специфической области — японских финансов.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Предлагаемый конвейер построения набора данных демонстрирует эволюционный подход к формированию обучающих данных, где каждый этап проектирования рассматривается как предсказание будущих точек отказа системы, а не как простая техническая реализация.

В статье представлен метод генерации синтетических данных с трассировкой рассуждений для повышения эффективности больших языковых моделей в узкоспециализированных задачах.

Несмотря на значительный прогресс в области больших языковых моделей (LLM), адаптация их к специализированным предметным областям и обеспечение логического мышления остаются сложной задачей. В данной работе, посвященной теме ‘Constructing Synthetic Instruction Datasets for Improving Reasoning in Domain-Specific LLMs: A Case Study in the Japanese Financial Domain’, предложен универсальный метод создания высококачественных синтетических наборов инструкций, начиная с предметно-ориентированной лексики. Полученные результаты демонстрируют, что применение данного подхода к финансовой сфере Японии позволило создать масштабный набор данных, содержащий приблизительно 9.5 миллиардов токенов с траекториями логического вывода, и значительно улучшить производительность моделей на финансовых бенчмарках. Каковы перспективы масштабирования предложенного метода для других специализированных областей и дальнейшего повышения эффективности логического мышления LLM?

Природа Финансового Понимания: Адаптация LLM к Японскому Контексту

Несмотря на впечатляющие возможности больших языковых моделей (LLM) в обработке информации, их прямое применение в специфической области японских финансов зачастую оказывается неэффективным. Это связано с тем, что LLM, обученные на общих корпусах текстов, испытывают трудности с пониманием специализированной финансовой терминологии, тонкостей японского регулирования и уникальных моделей финансового анализа, принятых в этой стране. Таким образом, для достижения надежных результатов в японском финансовом секторе требуется значительная адаптация LLM, учитывающая культурные и профессиональные особенности данной области.

Предварительно обученные большие языковые модели, несмотря на свою общую эрудицию, требуют значительной адаптации для эффективной работы в специфической области финансов. Это обусловлено тем, что финансовая сфера характеризуется уникальной терминологией, сложными нормативными актами и особыми моделями рассуждений, отличными от тех, на которых обучались исходные модели. Для понимания таких понятий, как финансовые деривативы, бухгалтерские отчеты или требования регуляторов, необходимо дополнительное обучение и тонкая настройка. Без этого, модели могут давать неточные или вводящие в заблуждение результаты при анализе финансовых данных или предоставлении консультаций, что делает адаптацию критически важной для их практического применения в финансовом секторе.

Для эффективного применения больших языковых моделей (LLM) в специализированной области финансов необходимы методы переноса знаний и повышения их производительности. Обучение с нуля требует огромных ресурсов и объемов данных, поэтому исследователи фокусируются на адаптации существующих моделей. Это достигается посредством тонкой настройки (fine-tuning) с использованием специализированных финансовых корпусов, а также применением техник, таких как обучение с подкреплением на основе обратной связи от экспертов. Особое внимание уделяется внедрению знаний о регуляторных нормах и специфической терминологии, что позволяет моделям не просто генерировать текст, но и проводить обоснованные финансовые рассуждения и анализ. Успешное применение этих методов открывает возможности для автоматизации сложных финансовых задач, повышения точности прогнозов и улучшения качества обслуживания клиентов.

Построение Надежного Набора Инструкций для Финансового Домена

Создание специализированного набора инструкций является критически важным этапом для точной настройки больших языковых моделей (LLM) для выполнения финансовых задач. Стандартные наборы данных часто не содержат достаточного количества примеров, специфичных для финансовой сферы, что приводит к низкой производительности LLM при обработке финансовых запросов. Поэтому, создание набора инструкций, содержащего разнообразные финансовые сценарии, типы запросов и ожидаемые форматы ответов, позволяет LLM эффективно понимать и выполнять сложные финансовые инструкции, такие как анализ рынка, управление портфелем, оценка рисков и консультирование по инвестициям. Целенаправленная настройка LLM на специализированном наборе данных значительно повышает точность, надежность и релевантность генерируемых ответов в контексте финансовых приложений.

Для обеспечения качества и устранения избыточности данных при создании обучающего набора инструкций, применялся комплекс методов очистки данных. В частности, использовалась фильтрация по N-граммам, позволяющая удалять повторяющиеся или нерелевантные последовательности токенов. Дополнительно применялись алгоритмы MinHash и Locality Sensitive Hashing (LSH) для эффективного выявления и удаления почти дублирующихся записей в большом объеме данных. В результате применения данных техник удалось отфильтровать 75.4% исходного набора данных, существенно повысив его качество и информативность.

Для создания реалистичных и сложных взаимодействий, имитирующих реальные финансовые диалоги, используется генерация многоходовых диалогов. Этот подход позволяет моделировать последовательные запросы и ответы, характерные для финансовых консультаций или операций. В отличие от одноходовых инструкций, многоходовые диалоги учитывают контекст предыдущих сообщений, требуя от модели сохранения и обработки информации на протяжении всей беседы. Это значительно повышает сложность задачи и позволяет оценить способность модели к пониманию и применению финансовой информации в динамической среде, приближенной к реальным пользовательским сценариям.

Для обеспечения качества и релевантности созданного набора данных инструкций, мы использовали подход LLM-as-a-Judge (LLM в роли судьи). Этот метод предполагает использование большой языковой модели для автоматической оценки и фильтрации сгенерированных данных. В ходе оценки, LLM-as-a-Judge продемонстрировал точность в 81.7%, что является наивысшим показателем среди всех использованных перспектив оценки. Это свидетельствует о высокой эффективности данного подхода в выявлении нерелевантных или некорректных инструкций, позволяя значительно улучшить качество итогового набора данных для обучения моделей.

Синтез Данных для Усиления Рассуждений: Расширение Горизонтов Финансового Анализа

Для расширения обучающей выборки и повышения способности модели к сложным финансовым рассуждениям используется генерация синтетических данных. В рамках данной работы был создан набор данных, состоящий из 9.5 миллиардов токенов, включающий в себя сценарии, требующие комплексного финансового анализа. Использование синтетических данных позволило значительно увеличить разнообразие обучающих примеров и охватить более широкий спектр финансовых ситуаций, что необходимо для обучения моделей, способных к надежным и точным прогнозам.

Для генерации детальных цепочек рассуждений, имитирующих процесс финансового анализа, используется специализированная большая языковая модель (LLM). Эта LLM не просто выдает ответ, а генерирует последовательность логических шагов, объясняющих, как был получен результат. Процесс включает в себя моделирование когнитивных процессов, необходимых для оценки финансовой информации, включая выявление ключевых фактов, применение соответствующих правил и формулирование обоснованных выводов. Такие цепочки рассуждений служат основой для обучения других LLM, позволяя им не только предоставлять финансовые прогнозы, но и демонстрировать прозрачность и объяснимость своих решений.

Длина генерируемых цепочек рассуждений (Reasoning Trace Length) является критически важным параметром при создании синтетических данных для обучения больших языковых моделей. Экспериментальные данные показали, что производительность моделей стабилизируется и перестает значительно улучшаться при длине цепочки рассуждений, превышающей 1024 токена. Это указывает на эффект убывающей отдачи: дальнейшее увеличение длины цепочки рассуждений не приводит к пропорциональному росту точности или качества генерируемых финансовых аналитических выводов, что позволяет оптимизировать процесс генерации данных и снизить вычислительные затраты.

Использование синтетических данных позволяет обучать большие языковые модели (LLM) не просто отвечать на вопросы, а предоставлять прозрачные и объяснимые финансовые выводы. Традиционные LLM часто выдают ответы без указания логической цепочки, что затрудняет проверку и понимание результатов. В отличие от этого, процесс генерации синтетических данных, включающий создание подробных следов рассуждений, позволяет модели демонстрировать ход своих мыслей, раскрывая этапы анализа и обоснование принятых решений. Это значительно повышает доверие к результатам и позволяет пользователям оценивать обоснованность финансовых прогнозов и рекомендаций, что критически важно в сфере финансов.

Увеличение длины цепочки рассуждений приводит к повышению точности выполнения задачи.

Адаптация и Валидация: От Теории к Практике в Финансовом Анализе

Для адаптации больших языковых моделей, в частности Qwen3 и gpt-oss, к специфике японского финансового сектора были применены два ключевых метода — продолжение предварительного обучения и настройка с использованием инструкций. Продолжение предварительного обучения позволило моделям глубже освоить финансовую терминологию и контекст, в то время как настройка с использованием инструкций, основанная на специально созданном и очищенном наборе данных, способствовала улучшению способности моделей к логическому мышлению и решению задач, характерных для финансовой сферы. Сочетание этих подходов позволило добиться значительного повышения эффективности моделей в обработке и понимании финансовой информации на японском языке, что подтверждается результатами тестирования на специализированных бенчмарках.

Для усовершенствования понимания языковых особенностей и логики финансовой сферы большими языковыми моделями (LLM) применялись методы, основанные на специально созданном и очищенном наборе инструкций. Этот набор данных, включающий разнообразные финансовые задачи и вопросы, позволил LLM адаптироваться к специфической терминологии и требованиям предметной области. В процессе обучения модель не просто запоминает ответы, но и учится рассуждать, анализировать финансовую информацию и генерировать логически обоснованные решения, что существенно повышает ее эффективность при решении практических задач в сфере финансов. Использование очищенных данных обеспечивает более высокую точность и надежность результатов, а сфокусированный характер набора инструкций позволяет LLM глубоко освоить нюансы финансового языка и логики.

Проведенная оценка производительности осуществлялась с использованием общепринятых финансовых бенчмарков, где ключевым показателем точности выступала метрика Pass@1. Результаты продемонстрировали превосходство адаптированных моделей над официально обученными инструкционными аналогами во всех проверенных подзадачах. Данный показатель свидетельствует о значительном улучшении способности моделей к решению специфических финансовых задач и эффективному пониманию соответствующей терминологии, что подтверждает успешность стратегии доменной адаптации, ориентированной на качество данных.

Полученные результаты демонстрируют существенное улучшение показателей производительности на стандартных финансовых бенчмарках. В частности, отмечается прирост в 4,5-5,7 пункта на японском наборе данных japanese-lm-fin-harness и 0,4 пункта на pfmt-bench-fin-ja. Эти улучшения свидетельствуют об эффективности применяемой стратегии адаптации моделей к финансовой сфере, основанной на создании и использовании специализированного набора данных. Данный подход позволяет достичь более высокой точности и надежности при решении финансовых задач, превосходя результаты официальных моделей, прошедших инструктивную настройку, по всем рассматриваемым подзадачам.

Перспективы Развития: Масштабирование и Обобщение Знаний

Исследование демонстрирует значительный потенциал подхода, основанного на data-centric AI, для адаптации больших языковых моделей (LLM) к узкоспециализированным и сложным областям знаний. В отличие от традиционных методов, фокусирующихся на изменении архитектуры модели, данный подход акцентирует внимание на качестве и релевантности обучающих данных. Тщательный отбор, очистка и аугментация данных позволяют значительно повысить производительность LLM в конкретной предметной области, не требуя дорогостоящей переподготовки или модификации самой модели. Это открывает возможности для создания интеллектуальных систем, способных эффективно решать задачи в таких сферах, как финансы, юриспруденция или медицина, где требуется высокая точность и специализированные знания.

Предстоящие исследования направлены на расширение применимости данного подхода к другим специализированным областям знаний, помимо финансового анализа. Особое внимание будет уделено разработке автоматизированных методов генерации и улучшения обучающих данных. Это включает в себя исследование алгоритмов, способных самостоятельно создавать и отбирать наиболее релевантные примеры, а также техники для автоматической коррекции ошибок и повышения качества существующих наборов данных. Успешная реализация этих методов позволит значительно сократить время и ресурсы, необходимые для адаптации больших языковых моделей к новым задачам, и откроет возможности для создания экспертных систем в широком спектре областей, требующих глубокого понимания языка и специализированных знаний.

Для расширения возможностей данной методологии ключевым фактором представляется использование масштабных общедоступных ресурсов, таких как Common Crawl. Этот огромный архив веб-страниц содержит колоссальный объем текстовой информации, который, при грамотной обработке и фильтрации, может быть использован для создания специализированных корпусов данных в различных областях. Автоматизированный сбор и очистка данных из Common Crawl позволяют значительно снизить затраты на создание обучающих выборок, особенно в узкоспециализированных сферах, где ручной сбор данных трудоемок и дорог. Использование таких ресурсов позволяет не только увеличить объем доступных данных, но и обеспечить их разнообразие, что критически важно для обучения надежных и адаптивных языковых моделей, способных эффективно работать в сложных предметных областях.

Конечная цель данной работы — создание больших языковых моделей (LLM), которые выходят за рамки простого оперирования текстом и становятся надежными и проницательными финансовыми аналитиками. Исследование направлено на формирование систем, способных не только понимать и генерировать финансовые отчеты, но и выявлять закономерности, прогнозировать рыночные тенденции и предоставлять обоснованные инвестиционные рекомендации. Предполагается, что такая модель сможет обрабатывать огромные объемы финансовых данных, включая новости, отчеты компаний и макроэкономические показатели, извлекая из них ценную информацию, которую традиционные методы анализа могут упустить. В перспективе, подобная система сможет существенно повысить эффективность финансового анализа и предоставить инвесторам более точные и надежные инструменты для принятия решений.

Исследование демонстрирует, что создание искусственных наборов данных с прослеживаемыми цепочками рассуждений — это не просто конструирование, а скорее взращивание системы. Авторы не стремятся создать идеальный набор инструкций, а формируют среду, в которой языковая модель может эволюционировать и адаптироваться к специфике финансового домена. Как заметил Анри Пуанкаре: «Математика не открывает истину, а лишь создает её». Аналогично, в данном контексте, искусственные данные не отражают существующую реальность, а формируют её, направляя модель к более эффективному решению задач. Стабильность и предсказуемость, которые часто стремятся обеспечить при создании датасетов, могут оказаться признаком скрытых ограничений, не позволяющих модели развиваться и находить нетривиальные решения, особенно в контексте сложной и изменчивой финансовой сферы.

Что дальше?

Представленная работа демонстрирует, как можно искусственно выращивать обучающие наборы данных, надеясь привить языковым моделям способность к рассуждениям в узкоспециализированной области. Однако, подобно любому акту архитектуры, это лишь отсрочка хаоса. Создание синтетических данных — не решение, а временное укрытие от непредсказуемости реальных данных, их шума и противоречий. Каждый тщательно продуманный пример, каждая «цепь рассуждений», заложенная в основу набора, является пророчеством о будущей ошибке — о случае, который не был учтен, о нюансе, который ускользнул от внимания.

Вместо поиска «лучших практик» — которых, как известно, не существует, а есть лишь выжившие — следует признать, что порядок есть лишь кэш между двумя сбоями. Более перспективным представляется изучение способов, позволяющих моделям самостоятельно обнаруживать и исправлять ошибки, адаптироваться к меняющимся условиям, учиться на собственных промахах. Необходимо сместить фокус с создания идеальных наборов данных на разработку механизмов самообучения и самокоррекции.

Попытки «привить» рассуждения языковой модели — это все равно, что пытаться построить плотину против океана. Реальная ценность заключается не в создании иллюзии порядка, а в понимании его хрупкости и разработке систем, способных выживать в условиях постоянной неопределенности. Экосистема данных, способная к спонтанной эволюции, представляется более устойчивой, чем любая искусственно сконструированная структура.

Оригинал статьи: https://arxiv.org/pdf/2603.01353.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-04 05:18