Визуальный интеллект: извлечение только необходимого из документов

Автор: Денис Аветисян

Новый подход к оптическому распознаванию символов позволяет динамически анализировать документы, фокусируясь на информации, релевантной запросу пользователя.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Агентный OCR осуществляет декомпрессию визуальной информации по запросу, используя операции масштабирования и поворота, что позволяет извлекать необходимые данные с высокой точностью.

Представлен AgenticOCR — система, преобразующая распознавание текста в управляемый агентом процесс для повышения эффективности извлечения информации и генерации ответов.

Обработка сложных визуальных документов, таких как финансовые отчеты, представляет собой серьезную проблему для систем генерации с расширением поиска (RAG). В данной работе, ‘AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation’, предложен инновационный подход AgenticOCR, преобразующий оптическое распознавание символов (OCR) из статического процесса в динамическую, управляемую запросами систему извлечения информации. AgenticOCR автономно анализирует структуру документа и выборочно распознает релевантные области, что позволяет оптимизировать объем извлекаемых визуальных токенов и повысить точность RAG. Может ли AgenticOCR стать ключевым компонентом следующего поколения систем визуального поиска и понимания документов?

Преодолевая Ограничения: За Гранью Статического OCR

Традиционные системы оптического распознавания символов (OCR) зачастую рассматривают документы как статичные изображения, что существенно ограничивает возможности извлечения сложной информации. Такой подход игнорирует внутреннюю структуру документа, включая взаимосвязи между различными элементами, такими как заголовки, таблицы и абзацы. В результате, даже при высоком качестве распознавания отдельных символов, извлечение смысла и установление логических связей между данными становится затруднительным. Это особенно критично при работе с документами, имеющими сложную структуру или содержащими нетекстовые элементы, такие как диаграммы и графики, поскольку информация, представленная в этих элементах, игнорируется или требует ручной обработки. Вместо динамического анализа и понимания контекста, системы OCR, рассматривающие документ как статичное изображение, вынуждены полагаться на обширную постобработку для коррекции ошибок и восстановления логической структуры, что замедляет процесс и снижает общую эффективность автоматизированных рабочих процессов.

Традиционные методы оптического распознавания символов (OCR) часто испытывают затруднения при обработке документов со сложной структурой, например, таблиц, многоколоночного текста или нестандартного форматирования. Эта неспособность корректно интерпретировать нюансы компоновки приводит к необходимости обширной постобработки — ручной корректировки ошибок, восстановления структуры и форматирования. В результате, автоматизированные рабочие процессы, зависящие от OCR, сталкиваются с существенными задержками и узкими местами, снижая общую эффективность и требуя значительных временных затрат на исправление ошибок, которые могли быть предотвращены более интеллектуальным подходом к распознаванию.

Традиционные методы оптического распознавания символов (OCR) зачастую оперируют с документом как с единым целым, не обладая способностью динамически выделять и анализировать наиболее релевантные фрагменты. Такой подход приводит к неэффективности обработки, поскольку система тратит ресурсы на анализ всей страницы, включая незначимые области, такие как колонтитулы или пустые пространства. В результате, возрастает вероятность ошибок распознавания, особенно в сложных документах с многоуровневой структурой и нестандартной компоновкой. Отсутствие адаптации к контексту и фокусировки на ключевой информации существенно ограничивает возможности автоматизации и требует значительных затрат времени на ручную проверку и исправление результатов.

Модель AgenticOCR выполняет декомпрессию визуальной информации посредством масштабирования и оптического распознавания символов, извлекая структурированные данные из ключевых областей документа, как показано на примере извлечения данных из таблицы.

AgenticOCR: Динамический Фреймворк для Интеллектуального Понимания Документов

В отличие от традиционных систем оптического распознавания символов (OCR), AgenticOCR представляет собой итеративный процесс, где обработка документа не происходит целиком, а фокусируется на динамически выбранных областях, соответствующих конкретным запросам. Это означает, что система анализирует документ и определяет, какие регионы наиболее релевантны для извлечения требуемой информации. Вместо последовательной обработки всего документа, AgenticOCR последовательно выбирает и обрабатывает только необходимые области, что позволяет значительно повысить эффективность и точность распознавания, особенно в сложных документах с неоднородной структурой и большим объемом текста. Такой подход позволяет снизить вычислительные затраты и время обработки, поскольку не требуется анализировать всю страницу.

В основе AgenticOCR лежит использование Визуально-Языковых Моделей (Vision-Language Models, VLM), обеспечивающих комплексное понимание документа. Эти модели одновременно анализируют визуальную компоновку документа и его текстовое содержание. Такой подход позволяет системе не просто распознавать текст, но и интерпретировать его в контексте расположения на странице, что значительно повышает точность извлечения целевой информации. VLM позволяют AgenticOCR определять взаимосвязи между текстом и его визуальным окружением, что критически важно для понимания структуры документа и выделения релевантных данных, например, заголовков, таблиц или конкретных полей в формах.

Интеграция анализа структуры документа в AgenticOCR позволяет системе интеллектуально ориентироваться в сложных макетах, значительно повышая точность и эффективность извлечения информации. Анализ структуры включает в себя определение логических блоков, таких как заголовки, абзацы, таблицы и списки, что позволяет системе целенаправленно обрабатывать отдельные элементы документа вместо последовательного анализа всего изображения. Это особенно важно для документов со сложным форматированием, таких как юридические контракты или научные статьи, где точное определение взаимосвязей между различными частями документа критически важно для правильной интерпретации содержимого. Использование алгоритмов анализа макета позволяет AgenticOCR динамически адаптироваться к различным типам документов и извлекать информацию с большей надежностью, чем традиционные методы OCR.

Система AgenticOCR включает в себя инструмент масштабирования изображений, позволяющий проводить детальный анализ отдельных областей документа, представляющих интерес для конкретного запроса. Данный инструмент обеспечивает возможность увеличения выбранных участков документа без потери качества, что критически важно для распознавания мелких деталей, таких как штрих-коды, подписи или номера счетов. Масштабирование осуществляется динамически, в зависимости от области и требуемой точности анализа, оптимизируя производительность и эффективность процесса распознавания символов (OCR) и извлечения информации.

Модель AgenticOCR успешно извлекает релевантный текст из документов, используя динамическое увеличение масштаба и оптическое распознавание символов для точного определения и извлечения доказательств, как показано на примере из MVToolbench.

Уточнение Интеллекта: Оптимизация и Дистилляция Траекторий

АгентicOCR использует алгоритм обучения с подкреплением Group Relative Policy Optimization (GRPO) для оптимизации своей политики выбора запросов. GRPO позволяет модели адаптировать стратегию формирования запросов к конкретным группам документов, учитывая их особенности и структуру. В рамках GRPO, модель оценивает эффективность различных запросов на основе получаемых результатов и корректирует свою политику, стремясь максимизировать вероятность получения релевантной информации. Это достигается путем группировки документов по схожим характеристикам и обучения отдельной политики запросов для каждой группы, что повышает точность и эффективность извлечения данных по сравнению с универсальными подходами.

Для повышения качества извлеченной информации система использует методы отбора проб (Rejection Sampling) и дистилляции траекторий. Отбор проб позволяет фильтровать результаты, выбирая наиболее релевантные и точные фрагменты текста, отбрасывая менее качественные. Дистилляция траекторий, в свою очередь, заключается в обучении модели на основе оптимальных последовательностей действий (траекторий), что позволяет ей эффективно находить и извлекать ключевую информацию из документов. Этот процесс улучшает производительность модели и снижает вероятность получения неверных или неполных данных.

В процессе дистилляции траекторий ключевую роль играет модель Gemini-3-Pro-Preview. Она используется для оценки и фильтрации полученных траекторий взаимодействия с документами, обеспечивая формирование высокоточных и надежных путей поиска информации. Gemini-3-Pro-Preview позволяет отбирать лишь те траектории, которые демонстрируют высокую вероятность успешного извлечения релевантных данных, что критически важно для повышения точности и эффективности системы AgenticOCR в целом. Использование данной модели гарантирует, что в процессе обучения будут учтены только те взаимодействия, которые приводят к наиболее качественному результату, минимизируя влияние «шумных» или нерелевантных данных.

Процесс взаимодействия модели с документами обеспечивает ее непрерывное обучение и улучшение способности к поиску и извлечению ключевой информации. В ходе анализа документов, система корректирует свою политику запросов на основе полученных результатов, что позволяет ей оптимизировать процесс поиска и повышать точность извлечения данных. Данный механизм самообучения позволяет модели адаптироваться к различным типам документов и форматам информации, постоянно совершенствуя свои навыки в задачах интеллектуального извлечения данных.

AgenticOCR обучается посредством дистилляции траекторий для инициализации SFT-политики, последующей оптимизации с использованием GRPO и интеграции в визуальные конвейеры RAG.

Подтверждение и Влияние: Бенчмаркинг со Сложными Наборами Данных

Система AgenticOCR подверглась всестороннему тестированию на специализированных наборах данных, представляющих собой сложные задачи анализа документов, таких как MMLongBench-Doc и FinRAGBench-V. Эти наборы данных намеренно включают в себя документы с высокой степенью сложности — длинные тексты, разнообразные форматы и неоднозначные визуальные элементы. Использование именно этих эталонных наборов позволяет объективно оценить возможности системы в реальных сценариях, требующих не только распознавания текста, но и понимания его контекста, а также извлечения ключевой информации. Такой подход к валидации гарантирует надежность и эффективность AgenticOCR в сложных условиях, где традиционные методы часто терпят неудачу.

Система AgenticOCR демонстрирует превосходство в задачах, требующих извлечения ключевой информации и указания на элементы-доказательства, значительно превосходя традиционные методы. В ходе тестирования на сложном наборе данных MMLongBench-Doc, точность системы достигла отметки в 66.4%, что превышает результаты, показанные экспертами-людьми, составляющие 65.8%. Данный показатель свидетельствует о способности системы не только находить релевантную информацию, но и точно указывать на конкретные фрагменты документа, подтверждающие извлеченные данные, что открывает новые возможности для автоматизированного анализа и верификации информации в сложных документах.

В ходе тестирования на комплексном наборе данных FinRAGBench-V, система AgenticOCR продемонстрировала высокую точность, достигнув показателя в 78.6%. Данный результат превосходит аналогичные показатели других существующих агентных фреймворков, что подтверждает эффективность подхода, используемого в AgenticOCR. Особенно важно отметить, что система не только успешно извлекает ключевую информацию, но и обеспечивает её корреляцию с визуальным представлением документа, что позволяет более точно отвечать на сложные вопросы, требующие анализа как текста, так и его расположения на странице. Такой уровень точности открывает новые возможности для автоматизации процессов, связанных с обработкой финансовых документов и извлечением из них ценных данных.

Система продемонстрировала высокую степень извлечения релевантной информации, достигнув показателя Recall в 68.8% при обработке как текстовых, так и структурных элементов документов в наборе данных MMLongBench-Doc. Особенно заметны результаты по извлечению информации на уровне страниц: Recall составил 93.5% для MMLongBench-Doc и 95.3% для FinRAGBench-V. Эти показатели свидетельствуют о способности системы эффективно находить и извлекать ключевые данные из сложных документов, что критически важно для задач, требующих высокой точности и полноты извлеченной информации. Такой уровень Recall позволяет утверждать, что система способна улавливать даже незначительные, но потенциально важные детали, предоставляя более полное и надежное представление о содержании документов.

Система AgenticOCR демонстрирует передовые результаты в решении сложных вопросов, основанных на документах, благодаря интеграции подхода Retrieval-Augmented Generation (RAG) с глубоким пониманием визуальной структуры документов. В основе этой эффективности лежит способность системы не только извлекать информацию из текста, но и учитывать расположение элементов на странице, что позволяет более точно интерпретировать контекст и находить релевантные ответы. Такой симбиоз текстового и визуального анализа позволяет AgenticOCR превосходить традиционные методы и достигать высокой точности в задачах, требующих комплексного анализа документов, что подтверждается результатами тестирования на различных бенчмарках и превосходящими показателями по сравнению с другими агентскими фреймворками.

Несмотря на устойчивость к отвлекающим факторам, система столкнулась с трудностями при распознавании названия кафе из-за низкого разрешения изображения и ограничений AgenticOCR в обработке многостраничных документов, что привело к ошибочному ответу и указывает на необходимость дальнейшего улучшения качества распознавания и поддержки многостраничных документов.

Исследование, представленное в данной работе, подчеркивает важность динамического подхода к обработке визуальной информации. Вместо традиционного статического распознавания символов, AgenticOCR предлагает систему, способную адаптироваться к конкретному запросу, выделяя лишь необходимую информацию. Это согласуется с мнением Джеффри Хинтона: «Если мы хотим создать действительно разумные машины, мы должны научить их учиться». Подобный подход к визуальному анализу документов позволяет не только повысить эффективность извлечения информации, но и приблизиться к созданию систем, способных к более глубокому пониманию и рассуждению, что является ключевым аспектом в развитии искусственного интеллекта. Особое внимание к адаптивности и выборочному извлечению данных, характерное для AgenticOCR, демонстрирует перспективность агентских фреймворков в области визуального документооборота.

Куда Далее?

Представленный подход, смещающий оптическое распознавание символов из рутинной предобработки в динамический, управляемый запросами процесс, безусловно, открывает новые горизонты. Однако, не стоит обольщаться иллюзией полного решения. Зависимость от качества исходных запросов и необходимость точной калибровки “агентства” системы остаются узкими местами, требующими дальнейшего осмысления. Воспроизводимость результатов, как всегда, предстает не только технической, но и методологической проблемой — как гарантировать, что “интеллект” системы не является лишь случайным совпадением параметров?

Перспективным направлением представляется интеграция AgenticOCR с моделями, способными к более глубокому семантическому пониманию не только текста, но и визуального контекста документа. Разработка метрик оценки, выходящих за рамки простой точности распознавания, и фокусирующихся на объяснимости принимаемых системой решений, представляется задачей не менее важной. По сути, необходимо переосмыслить саму природу “понимания” документов — достаточно ли просто извлечь информацию, или необходимо построить полноценную внутреннюю модель, отражающую её структуру и смысл?

В конечном счете, успех подобных систем будет определяться не только их способностью обрабатывать данные, но и их способностью адаптироваться к непредсказуемости реального мира, где документы редко бывают идеальными, а запросы — однозначными. Истина, как всегда, где-то рядом, скрытая за кажущейся простотой визуальной информации.

Оригинал статьи: https://arxiv.org/pdf/2602.24134.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-02 19:42