Умный поиск по документам: как объединить скорость и точность

Автор: Денис Аветисян

Новая система адаптивной маршрутизации запросов позволяет значительно улучшить поиск информации в финансовых, юридических и медицинских документах, особенно при работе со сложными запросами и перекрестными ссылками.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Качество оценки, предоставляемой большой языковой моделью в роли судьи, и полнота извлечения информации варьируются в зависимости от сложности запроса, что подтверждает необходимость адаптивных стратегий поиска информации, поскольку ни один из методов не демонстрирует превосходство во всех категориях сложности.

Адаптивная гибридная система поиска, сочетающая векторный поиск и древовидное рассуждение, демонстрирует превосходство над каждым из методов по отдельности в задачах извлечения знаний из финансовых, юридических и медицинских документов.

Несмотря на успехи систем генерации с дополнением извлечением (RAG), единого подхода, оптимального для запросов различной сложности и типов документов, пока не существует. В данной работе, ‘Adaptive Query Routing: A Tier-Based Framework for Hybrid Retrieval Across Financial, Legal, and Medical Documents’, предложена и исследована многоуровневая система адаптивного поиска, объединяющая векторный поиск и логическое рассуждение на основе древовидной структуры данных. Эксперименты показали, что гибридный подход превосходит как векторный RAG, так и древовидное рассуждение, особенно при решении сложных запросов, требующих сопоставления перекрестных ссылок. Не приведет ли это к разработке интеллектуальных систем поиска, способных динамически выбирать оптимальную стратегию в зависимости от специфики запроса и структуры документа?

Преодолевая Границы Контекста: Большие Языковые Модели и Информационный Поиск

Современные большие языковые модели (БЯМ) совершили прорыв в области обработки естественного языка, продемонстрировав впечатляющие возможности в генерации текста, переводе и ответах на вопросы. Однако, несмотря на свой потенциал, эти модели сталкиваются с фундаментальным ограничением — фиксированным размером контекстного окна. Это означает, что БЯМ могут обрабатывать только ограниченный объем информации одновременно, что существенно снижает их эффективность при решении сложных задач, требующих анализа больших объемов данных или учета долгосрочных зависимостей. В то время как увеличение размера контекстного окна является одним из направлений исследований, оно сопряжено со значительными вычислительными затратами и проблемами масштабируемости, что требует поиска альтернативных подходов к обработке информации и преодолению данного ограничения.

Традиционные методы информационного поиска часто оказываются неспособны предоставить языковым моделям (LLM) именно тот контекст, который необходим для точной и достоверной работы. В результате, LLM могут выдавать неточные ответы или даже генерировать полностью вымышленные данные — так называемые “галлюцинации”. Проблема заключается в том, что стандартные алгоритмы поиска, ориентированные на ключевые слова или общую релевантность, не всегда способны определить, какая информация действительно важна для конкретного запроса и обладает смысловой связью с заданным контекстом. Это особенно критично при обработке сложных документов, где нюансы и взаимосвязи между данными имеют решающее значение для правильной интерпретации и генерации адекватного ответа.

Ограничения контекстного окна больших языковых моделей (LLM) становятся особенно заметными при работе со структурированными документами, такими как финансовые отчеты. В отличие от свободных текстов, финансовые данные требуют точного извлечения и анализа конкретных показателей, таблиц и взаимосвязей. Простое предоставление LLM большого объема текста отчета не гарантирует выделения релевантной информации, что приводит к неточностям в интерпретации и даже к галлюцинациям — выдаче ложных данных, не подтвержденных исходным документом. Поэтому для эффективной работы с такими документами необходимы более сложные подходы, включающие в себя не только поиск релевантных фрагментов текста, но и структурированное представление данных, а также механизмы, позволяющие LLM ориентироваться в сложной иерархии финансовой информации и проводить точные расчеты.

В задачах обработки финансовых документов лидирует Vector RAG, в то время как Tree Reasoning демонстрирует превосходство в юридической и медицинской областях.

Восполнение Знаний: RAG как Мост к Внешним Источникам

Генерация с расширением поиска (RAG) решает проблему ограниченного контекста больших языковых моделей (LLM) путем извлечения релевантной информации из внешних источников до формирования ответа. Вместо того, чтобы полагаться исключительно на параметры, заложенные в LLM во время обучения, RAG динамически дополняет контекст запроса, извлекая наиболее подходящие фрагменты данных. Этот процесс позволяет LLM генерировать более точные, контекстуально релевантные и информативные ответы, особенно в ситуациях, когда требуются знания, не включенные в исходный набор обучающих данных модели. Фактически, RAG переводит задачу от генерации текста «из ничего» к генерации текста на основе предоставленного и релевантного контекста.

Первые реализации RAG, известные как Naive RAG, использовали простые конвейеры поиска информации, как правило, основанные на точном совпадении ключевых слов или регулярных выражениях. Такой подход, хотя и позволял LLM получать доступ к внешним данным, часто оказывался неэффективным при обработке сложных запросов, требующих понимания контекста и семантических связей. Ограничения Naive RAG проявлялись в низкой релевантности извлеченных документов, особенно когда запрос формулировался нетривиальным образом или требовал синтеза информации из нескольких источников. В результате, качество генерируемых ответов могло быть неудовлетворительным, несмотря на доступ к релевантным данным.

Векторный RAG (Retrieval-Augmented Generation) значительно повысил релевантность извлекаемой информации за счет использования семантической близости. В основе подхода лежит применение векторных баз данных, в которых документы и запросы представляются в виде векторных вложений (embeddings). Модели, такие как all-MiniLM-L6-v2, преобразуют текст в компактные векторные представления, отражающие семантическое значение. При поиске релевантной информации, система вычисляет косинусное расстояние между векторным представлением запроса и векторами документов, выбирая наиболее близкие по смыслу. Такой подход позволяет находить информацию, релевантную запросу, даже если в запросе и документе не используются одинаковые ключевые слова, что значительно улучшает качество генерации ответов.

Несмотря на эффективность семантического поиска, основанного на векторных представлениях, для работы со структурированными данными его недостаточно. Простое сопоставление по семантической близости не учитывает логические связи и отношения внутри данных, что приводит к неполным или неточным результатам. Для извлечения релевантной информации из структурированных источников, таких как базы данных или знания графы, требуются более сложные стратегии поиска, включающие анализ схемы данных, использование SQL-запросов или графовых алгоритмов, а также учет специфических типов данных и ограничений.

Использование древовидных подходов обеспечивает 100%-ный охват при разрешении запросов третьего уровня, что превосходит результат в 91.7% для Vector RAG.

Структурирование Рассуждений: Продвинутые RAG-Архитектуры

Системы RAG, использующие древовидное рассуждение (Tree Reasoning RAG), применяют графовые структуры для представления и обработки информации, что позволяет более эффективно извлекать и обобщать данные. В основе работы таких систем лежит использование мощных языковых моделей, таких как GPT-4, для навигации по графу знаний и последовательного анализа взаимосвязей между различными фрагментами информации. Этот подход позволяет преодолеть ограничения традиционных методов RAG, где поиск ограничивается семантическим сходством, и обеспечивает более глубокое понимание контекста и сложных взаимосвязей, что приводит к повышению точности и релевантности генерируемых ответов.

В системе GraphRAG документы представляются в виде графов знаний, где сущности выступают в роли узлов, а связи между ними — в роли ребер. Такой подход позволяет зафиксировать не только наличие информации, но и семантические взаимосвязи между различными элементами документа. В процессе поиска релевантной информации GraphRAG использует алгоритмы обхода графа для выявления неявных связей и контекста, что обеспечивает более точный и полный ответ на запрос по сравнению с традиционными методами, основанными на векторном поиске. Это позволяет учитывать не только ключевые слова, но и взаимосвязи между понятиями, что особенно важно для сложных запросов, требующих глубокого понимания предметной области.

Методика KRAGEN использует подход “графа мыслей” (graph-of-thoughts prompting) для декомпозиции сложных задач на более мелкие подзадачи. Этот процесс предполагает построение графа, где узлы представляют собой промежуточные шаги решения, а ребра — зависимости между ними. Использование LLM для последовательного решения этих подзадач, представленных в виде графа, позволяет значительно углубить процесс рассуждения и повысить точность ответов, особенно в задачах, требующих многоступенчатого анализа и синтеза информации. В отличие от прямого запроса к LLM, декомпозиция задачи позволяет модели более эффективно использовать свои знания и ресурсы для достижения оптимального результата.

Адаптивное гибридное извлечение (Adaptive Hybrid Retrieval) представляет собой подход, объединяющий преимущества векторного поиска (Vector RAG), поиска по деревьям знаний (Tree Reasoning RAG) и динамического выбора стратегии. В ходе тестирования на реальных документах SEC (Комиссия по ценным бумагам и биржам США) данная архитектура продемонстрировала улучшение производительности на 11.7 процентных пункта по сравнению с использованием только векторного поиска. Разрыв в результатах увеличился до 5.5 процентных пункта при использовании контролируемого корпуса данных, что указывает на более выраженное преимущество гибридного подхода при работе с неструктурированной и сложной информацией. Методы HiRAG и Modular RAG не исключают друг друга и могут быть интегрированы в подобные гибридные системы для достижения оптимальной производительности.

Анализ качества ответов показывает, что Vector RAG испытывает трудности с медицинскими запросами первого уровня (0.50), в то время как Tree Reasoning демонстрирует идеальное качество (1.00) для медицинских запросов второго уровня.

Оценка Эффективности: Бенчмарки и Перспективы Развития

Для реалистичной оценки возможностей систем извлечения и генерации ответов (RAG) в области финансового анализа разработан FinanceBench — специализированный набор данных, состоящий из вопросов, аннотированных экспертами, на основе официальных отчетов SEC (Комиссии по ценным бумагам и биржам США). В отличие от синтетических или упрощенных тестов, FinanceBench использует аутентичные финансовые документы, требующие глубокого понимания контекста и сложных вычислений. Это позволяет более точно оценить способность RAG-систем к финансовому рассуждению, включая извлечение ключевой информации, интерпретацию числовых данных и выявление взаимосвязей между различными финансовыми показателями, что делает его ценным инструментом для разработки и совершенствования алгоритмов финансового анализа.

Для упрощения и ускорения оценки качества ответов, генерируемых системами извлечения информации, применяется автоматизированный подход, основанный на использовании больших языковых моделей, таких как GPT-4, в качестве экспертов-оценщиков. Вместо трудоемкой ручной проверки, LLM-as-Judge самостоятельно анализирует сгенерированные тексты, сопоставляя их с эталонными ответами и выставляя оценки, отражающие точность, релевантность и полноту информации. Этот метод не только значительно сокращает время, необходимое для проведения оценки, но и обеспечивает более объективный и последовательный анализ, что особенно важно при сравнении различных систем и алгоритмов обработки естественного языка. Автоматизация оценки позволяет исследователям и разработчикам быстро и эффективно оптимизировать свои модели, добиваясь лучших результатов в задачах извлечения и анализа данных.

Задачи, требующие численного рассуждения и извлечения информации, представленные в бенчмарке FinanceBench, представляют особую сложность для систем извлечения и генерации ответов (RAG). Это связано с тем, что финансовые документы, такие как отчеты SEC, часто содержат сложные числовые данные, представленные в табличном виде, которые необходимо правильно интерпретировать и сопоставлять с текстовой информацией. Системам RAG, как правило, трудно эффективно обрабатывать такие гибридные данные, требующие не только поиска релевантных фрагментов текста, но и выполнения вычислений, анализа таблиц и установления логических связей между числовыми и текстовыми элементами. Неспособность адекватно справляться с подобными задачами ограничивает возможности RAG в сфере финансового анализа и принятия решений, подчеркивая необходимость разработки более совершенных алгоритмов и архитектур, способных эффективно обрабатывать сложные финансовые данные.

Перспективные исследования направлены на расширение возможностей систем RAG (Retrieval-Augmented Generation) в обработке гибридных данных, сочетающих табличную и текстовую информацию (TAT-QA). Усложнение задач, требующих извлечения информации из различных форматов и последующего логического анализа, представляет собой ключевую область для развития. В частности, ведется работа над интеграцией более сложных стратегий рассуждения, позволяющих системам не просто находить релевантные фрагменты данных, но и проводить глубокий анализ, выявлять взаимосвязи и делать обоснованные выводы. Успешное решение этих задач позволит значительно повысить точность и надежность RAG-систем в финансовых и других областях, где критически важна интерпретация сложных данных.

Исследование продемонстрировало значительное превосходство новой системы адаптивного гибридного поиска (Adaptive Hybrid Retrieval) в оценке качества финансового анализа. При использовании метрики LLM-as-Judge, система достигла общего результата 0.938 при работе с реальными документами SEC (финансовыми отчетами компаний), значительно опережая традиционный векторный поиск (Vector RAG) с результатом 0.821. Примечательно, что метод древовидного рассуждения (Tree Reasoning) показал сопоставимые результаты — 0.900 на контролируемом корпусе данных и 0.938 при анализе реальных финансовых отчетов, что подчеркивает эффективность предложенного подхода к решению сложных задач финансового анализа и извлечению информации из структурированных и неструктурированных данных.

Оценка FinanceBench на реальных отчётах SEC показала, что подход Tree Reasoning демонстрирует наивысшее качество (<span class="katex-eq" data-katex-display="false">0.938</span>), превосходя Hybrid AHR (<span class="katex-eq" data-katex-display="false">0.901</span>) и Vector RAG (<span class="katex-eq" data-katex-display="false">0.821</span>), при этом наиболее сложным типом вопросов оказалась числовая аналитика, а Tree Reasoning обеспечивает более стабильное качество, хоть и с большей задержкой. — Оценка FinanceBench на реальных отчётах SEC показала, что подход Tree Reasoning демонстрирует наивысшее качество ( $0.938$ ), превосходя Hybrid AHR ( $0.901$ ) и Vector RAG ( $0.821$ ), при этом наиболее сложным типом вопросов оказалась числовая аналитика, а Tree Reasoning обеспечивает более стабильное качество, хоть и с большей задержкой.

Исследование демонстрирует, что адаптивная гибридная система поиска, сочетающая векторный поиск и логические рассуждения на основе древовидных структур, превосходит каждый из методов в отдельности, особенно при работе со сложными запросами, требующими разрешения перекрестных ссылок. Этот подход подчеркивает важность лаконичности и ясности в организации информации. Брайан Керниган однажды заметил: «Простота — это высшая степень совершенства». Данное утверждение находит отклик в представленной работе, где стремление к оптимизации системы достигается не за счет добавления новых компонентов, а за счет избавления от избыточности и повышения эффективности существующих. В конечном итоге, совершенство системы проявляется в её способности предоставлять точные и релевантные ответы, не усложняя процесс поиска.

Что Дальше?

Представленная работа, хотя и демонстрирует превосходство адаптивного гибридного поиска, лишь слегка приоткрывает завесу над истинной сложностью понимания документов. Поиск, даже «адаптивный», остается лишь приближением к смыслу, а не самим смыслом. Вопрос о разрешении перекрестных ссылок, хоть и решен на определенном уровне, таит в себе куда более глубокие проблемы, связанные с контекстом и намерением автора. Нельзя забывать, что информация существует не в вакууме, а в сети взаимосвязей, часто скрытых и неявных.

Следующим шагом видится отказ от упрощенного представления знаний как набора векторов или деревьев. Необходим переход к системам, способным моделировать не только факты, но и логику рассуждений, а также учитывать вероятностный характер информации. Эффективность таких систем должна оцениваться не только по скорости и точности поиска, но и по способности обнаруживать противоречия и неполноту данных. Очевидно, что истинное понимание требует не просто извлечения информации, а её критической оценки.

В конечном счете, успех в этой области зависит от способности отказаться от иллюзий и признать ограниченность наших инструментов. Стремление к совершенству не должно приводить к усложнению, а к упрощению. Иногда, самое ценное решение — это признание невозможности решения. Скромность — добродетель, особенно в науке.

Оригинал статьи: https://arxiv.org/pdf/2604.14222.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-19 14:11