Искусственный исследователь: насколько близок настоящий прогресс?

Автор: Денис Аветисян


Новое исследование оценивает возможности и ограничения интеллектуальных агентов для глубокого анализа информации, выявляя ключевые проблемы в области рассуждений, поиска и генерации контента.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Наблюдения за производительностью агента на DeepResearch Bench (DRB) и ourFinder демонстрируют общую картину эффективности и возможностей системы.
Наблюдения за производительностью агента на DeepResearch Bench (DRB) и ourFinder демонстрируют общую картину эффективности и возможностей системы.

В статье представлена методика Finder для всесторонней оценки и таксономия DEFT для диагностики проблем в работе агентов глубоких исследований.

Несмотря на стремительное развитие автоматизированных систем анализа информации, оценка реальной применимости так называемых «глубоких исследовательских агентов» (Deep Research Agents) остаётся сложной задачей. В работе, озаглавленной ‘How Far Are We from Genuinely Useful Deep Research Agents?’, предложен комплексный подход к оценке таких систем, включающий новый бенчмарк (FINDER) и таксономию ошибок (DEFT). Полученные результаты показывают, что современные агенты испытывают трудности не столько с пониманием задач, сколько с интеграцией, проверкой и логическим анализом полученных данных. Какие шаги необходимы для создания действительно полезных и надёжных систем автоматизированного исследования?


Вызовы Автономных Исследований

Несмотря на значительный прогресс в области больших языковых моделей (LLM), создание полностью автономных исследовательских систем остается сложной задачей. Хотя LLM демонстрируют впечатляющую способность генерировать текст и находить информацию, они часто сталкиваются с трудностями в проверке фактической достоверности полученных данных и проведении глубокого, всестороннего анализа. Это связано с тем, что модели, как правило, оперируют вероятностными связями между словами, а не фактическим пониманием предметной области, что приводит к появлению «галлюцинаций» и неточностей в отчетах. Для достижения подлинной автономности необходимо преодолеть эти ограничения и разработать системы, способные к критическому мышлению, проверке источников и синтезу знаний на основе надежных данных, а не только на статистической вероятности.

Традиционные методы поиска информации, несмотря на кажущуюся простоту, испытывают значительные трудности при работе с данными веб-масштаба. Они часто ограничиваются выявлением релевантных документов, но не способны провести глубокий анализ и синтез содержащихся в них знаний. В результате, автоматически генерируемые отчеты, основанные на таких подходах, нередко страдают от недостатка глубины, отсутствия взаимосвязей между фактами и, как следствие, низкой надежности. Поверхностный анализ больших объемов данных приводит к появлению отчетов, которые могут содержать неполную или искаженную информацию, не позволяя делать обоснованные выводы и представляя собой скорее компиляцию фактов, чем полноценное исследование.

Основная сложность в создании систем, способных не просто находить информацию, но и рассуждать над ней, заключается в необходимости имитации когнитивных процессов, присущих исследователю. Недостаточно просто собрать данные из различных источников; система должна уметь выявлять закономерности, критически оценивать достоверность источников, сопоставлять противоречивые данные и делать обоснованные выводы. Для этого требуется разработка алгоритмов, способных к абстрактному мышлению, логическому анализу и построению причинно-следственных связей, что значительно превосходит возможности современных методов поиска и обработки информации. Создание таких систем позволит автоматизировать не только сбор фактов, но и формирование целостных, достоверных и научно обоснованных исследовательских отчетов, представляющих реальную ценность для научного сообщества.

Процесс поиска информации в глубоких исследованиях подвержен сбоям на различных этапах, что может привести к неверным выводам.
Процесс поиска информации в глубоких исследованиях подвержен сбоям на различных этапах, что может привести к неверным выводам.

DeepResearchAgents: Автономная Система Исследований

Система DeepResearchAgents (DRA) использует большие языковые модели (LLM) для автоматизированного проведения исследований, осуществляя поиск информации в веб-масштабе посредством таких методов, как WebSearch. Данный подход позволяет DRA самостоятельно извлекать релевантные данные из обширных онлайн-источников, включая веб-сайты, базы данных и другие цифровые ресурсы. WebSearch выступает в качестве основного механизма для сбора информации, обеспечивая доступ к актуальным и разнообразным источникам. Использование LLM позволяет не только находить информацию, но и обрабатывать её, выделяя ключевые факты и связи между ними, что является основой для автоматизированного анализа и синтеза знаний.

Агенты DeepResearchAgents (DRA) используют программные интерфейсы приложений (API) для доступа к моделям, необходимым на различных этапах оценки и анализа информации. Это позволяет автоматизировать процессы, такие как проверка фактов, оценка релевантности источников, и суммирование результатов. Вместо ручной интеграции и настройки отдельных инструментов, DRA динамически обращается к API различных моделей для выполнения конкретных задач, что значительно ускоряет исследовательский процесс и обеспечивает масштабируемость системы. Использование API также позволяет легко обновлять и заменять используемые модели без изменения основной архитектуры DRA, обеспечивая гибкость и адаптивность к новым технологиям.

Система DeepResearchAgents предназначена для автоматизированного синтеза информации из различных источников в структурированные отчеты. Это достигается посредством последовательного извлечения данных, их обработки и организации в заранее определенные форматы, такие как таблицы, списки или текстовые сводки. Возможность масштабирования обеспечивается за счет автоматизации процесса и использования параллельных вычислений, что позволяет обрабатывать большие объемы данных и генерировать отчеты в короткие сроки. Такая архитектура делает систему применимой для задач, требующих регулярного мониторинга и анализа информации, а также для создания баз знаний и отчетов по конкретным темам.

Наше решение, ourFinder, демонстрирует превосходство по сравнению с DeepResearch Bench.
Наше решение, ourFinder, демонстрирует превосходство по сравнению с DeepResearch Bench.

Строгие Рамки Оценки для Надежных Отчетов

Для оценки производительности систем автоматической генерации отчетов (DRA) нами используется Finder — комплексный бенчмарк, включающий широкий спектр задач и контрольных списков. Finder позволяет проводить систематизированную оценку по различным параметрам, таким как полнота отчета, глубина анализа и фактическая достоверность представленной информации. Бенчмарк охватывает разнообразные сценарии, позволяя выявить сильные и слабые стороны различных DRA и обеспечить объективное сравнение их возможностей. Комплексный подход Finder позволяет оценить не только способность системы понимать поставленные задачи, но и качество генерируемого контента, а также соответствие фактическим данным.

Для оценки качества отчетов, система Finder использует комплексные оценочные фреймворки RACE и FACT. RACE (Retrieval-Augmented Completion Evaluation) оценивает полноту и релевантность извлеченной информации, а также качество ее интеграции в формируемый ответ. FACT (FActuality Checking) фокусируется на проверке фактической точности утверждений, содержащихся в отчете, и их соответствия исходным данным. Комбинированное применение этих фреймворков позволяет оценить отчеты по трем ключевым параметрам: полноте охвата темы, глубине аналитических выводов и степени обоснованности утверждений фактическими данными, что обеспечивает всестороннюю оценку качества генерируемых отчетов.

Анализ результатов тестирования существующих систем генерации отчетов (DRAs) показал, что основные трудности связаны не с пониманием поставленных задач, а с интеграцией доказательств и соблюдением методологической строгости. В частности, системы демонстрируют недостаточную способность корректно использовать и проверять источники информации, а также выстраивать логически обоснованные заключения на основе полученных данных. Это проявляется в более высокой частоте ошибок, связанных с обоснованностью выводов и корректностью цитирования, по сравнению с ошибками, возникающими на этапе интерпретации запроса или определения необходимой информации для ответа.

В ходе тестирования различных систем генерации отчетов (DRA) было выявлено, что наиболее частой причиной ошибок является стратегическая фабрикация контента — 39% всех случаев неудач. Данный тип ошибки подразумевает создание отчета, содержащего информацию, которая не соответствует исходным данным или вводящим в заблуждение утверждениям, при этом формально соблюдая требования к структуре и оформлению. Это указывает на значительные проблемы в способности DRAs к точной интерпретации и представлению информации, а также на необходимость усиления механизмов проверки достоверности генерируемого контента.

Анализ результатов тестирования выявил, что 32% случаев неудачной работы систем автоматического создания отчетов (DRA) связаны с этапом извлечения информации. Данная проблема указывает на сложности в управлении качеством извлекаемых данных и их последующей верификации. Неспособность систем эффективно находить и подтверждать достоверность релевантной информации напрямую влияет на надежность и точность генерируемых отчетов, что требует дальнейшей оптимизации алгоритмов поиска и валидации источников.

Сравнение результатов FINDER RACE при использовании MiroFlow для английского (EN) и китайского (ZH) языков показывает незначительные различия в производительности (среднее значение по трем запускам).
Сравнение результатов FINDER RACE при использовании MiroFlow для английского (EN) и китайского (ZH) языков показывает незначительные различия в производительности (среднее значение по трем запускам).

Понимание и Категоризация Режимов Сбоев

Разработана таксономия DEFT, специально предназначенная для классификации ошибок, возникающих в процессе работы DeepResearchAgents. Эта система категоризирует сбои по трем основным направлениям: рассуждение, поиск информации и генерация ответа. Ошибки в области рассуждения охватывают проблемы с логическими выводами и построением аргументов, в то время как ошибки при поиске информации связаны с неспособностью агента найти релевантные данные. Наконец, ошибки генерации включают в себя проблемы с формулировкой связного и точного ответа. DEFT позволяет систематизировать анализ неудач и выявлять общие закономерности, что необходимо для дальнейшей оптимизации и улучшения эффективности DeepResearchAgents.

Разработка таксономии ошибок DEFT осуществлялась с применением методологии обоснованной теории (Grounded Theory), что представляет собой итеративный процесс анализа данных и выявления концепций. Данный подход позволил не просто создать классификацию, но и сформировать её непосредственно из наблюдений за фактическими ошибками, возникающими у DeepResearchAgents. В ходе анализа, концепции и категории возникали эмпирически, а не предписывались заранее, что обеспечило высокую степень соответствия таксономии реальным проблемам. Такой итеративный цикл, включающий сбор данных, кодирование, формирование категорий и повторный анализ, гарантировал надежность и всесторонность полученной классификации, позволяя охватить широкий спектр ошибок и выявить ключевые закономерности.

Надежность разработанной таксономии ошибок DEFT подтверждается высокой степенью согласованности между кодировщиками, продемонстрированной в процессе аксиального кодирования. Для оценки этого согласования использовался коэффициент Криппендорфа Альфа, который показал высокий уровень — это свидетельствует о том, что категоризация ошибок, предложенная в DEFT, является стабильной и не зависит от субъективного мнения отдельных исследователей. Высокая степень согласованности гарантирует, что таксономия может быть последовательно и надежно применена для анализа ошибок в DeepResearchAgents, обеспечивая объективную оценку и возможность выявления наиболее распространенных проблем.

Систематический анализ случаев сбоев, осуществляемый посредством таксономии DEFT, позволяет выявить наиболее распространенные паттерны ошибок в работе DeepResearchAgents. Такой подход предоставляет возможность не просто констатировать наличие проблем, но и ранжировать их по степени значимости для последующей оптимизации. Выделяя повторяющиеся ошибки в процессах рассуждения, поиска информации и генерации ответов, разработчики получают четкое представление о слабых местах в архитектуре DRA. Это, в свою очередь, позволяет целенаправленно направлять усилия на улучшение конкретных аспектов, что значительно повышает эффективность и надежность агентов в долгосрочной перспективе. Такой подход к анализу сбоев является ключевым для создания более интеллектуальных и адаптивных систем искусственного интеллекта.

Схема демонстрирует классификацию отказов в DEFT на два уровня: базовый (Level 1) и осевой (Level 2).
Схема демонстрирует классификацию отказов в DEFT на два уровня: базовый (Level 1) и осевой (Level 2).

Представленная работа акцентирует внимание на необходимости детальной оценки и диагностики агентов глубоких исследований. Авторы подчеркивают, что существующие метрики недостаточно точно отражают истинные возможности таких систем, особенно в сложных задачах, требующих рассуждений и извлечения информации. Как заметил Марвин Минский: «Лучший способ понять — это создать». Данный подход к разработке Finder и DEFT позволяет не просто оценить производительность, но и выявить конкретные области, где агенты испытывают трудности, что открывает путь к их совершенствованию. Акцент на таксономии ошибок (DEFT) особенно важен, поскольку позволяет систематизировать проблемы и нацеленно разрабатывать решения, избегая расплывчатых и неэффективных улучшений.

Что дальше?

Представленный анализ, хотя и детализированный, лишь обнажает сложность истинного исследовательского агента. Оценка, даже столь гранулярная, неизбежно упрощает когнитивные процессы, которые она пытается измерить. Повторяющиеся ошибки, выявленные в категориях рассуждений и извлечения информации, указывают не на недостаток вычислительной мощности, а на фундаментальные пробелы в понимании того, что значит «понимать» для машины.

Следующий шаг — не в наращивании масштаба моделей, а в их радикальном переосмыслении. Иллюзия компетентности, создаваемая большими языковыми моделями, может заслонить необходимость в истинном, верифицируемом знании. Акцент должен сместиться с генерации текста на создание систем, способных к критическому анализу, проверке источников и, что самое сложное, к признанию собственной некомпетентности.

В конечном счете, вопрос не в том, насколько быстро машины смогут «исследовать», а в том, готовы ли люди принять результаты, полученные в отсутствие человеческой интуиции и критического мышления. Простота — не недостаток, а признак истинного понимания. И только она способна противостоять искушению усложнения ради самого усложнения.


Оригинал статьи: https://arxiv.org/pdf/2512.01948.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-03 00:47