Проверка на правдивость: как оценить научные отчеты, созданные ИИ

Автор: Денис Аветисян


Новый подход позволяет более надежно оценивать достоверность информации в научных отчетах, генерируемых большими языковыми моделями, решая проблему устаревших тестов и субъективности экспертов.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал
DeepFact-Eval демонстрирует превосходство над традиционными системами проверки фактов, такими как VeriScore, FactCheck-GPT и SAFE, за счет упрощенного рабочего процесса, позволяющего более эффективно оценивать достоверность информации.
DeepFact-Eval демонстрирует превосходство над традиционными системами проверки фактов, такими как VeriScore, FactCheck-GPT и SAFE, за счет упрощенного рабочего процесса, позволяющего более эффективно оценивать достоверность информации.

Представлен эволюционирующий бенчмарк и протокол аудита (Audit-then-Score) для повышения надежности верификации фактов в глубоких исследовательских отчетах, созданных большими языковыми моделями.

Несмотря на успехи больших языковых моделей в генерации развернутых исследовательских отчетов, проверка фактической достоверности отдельных утверждений в них остается сложной задачей. В работе ‘DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality’ предложен инновационный подход, основанный на создании саморазвивающегося эталона и протоколе аудита (Audit-then-Score), позволяющего повысить надежность верификации фактов в глубоких исследовательских отчетах. Показано, что экспертная оценка достоверности утверждений существенно улучшается при итеративном пересмотре и уточнении эталонных данных, а разработанные инструменты DeepFact-Bench и DeepFact-Eval превосходят существующие аналоги. Сможет ли подобный подход стать стандартом в оценке и повышении надежности информации, генерируемой большими языковыми моделями?


Проблема достоверности: оценка глубоких исследовательских отчётов

Глубокие исследовательские отчёты (ГИО) становятся всё более важным источником информации в различных областях, от научных исследований до анализа рынков и принятия политических решений. Однако, по мере увеличения объёма и сложности этих отчётов, проверка их фактической точности представляет собой серьёзную проблему. Традиционные методы верификации, основанные на ручной проверке или простых алгоритмах, не справляются с масштабами и многообразием данных, содержащихся в ГИО. Эта сложность создаёт “узкое место” в процессе обработки информации, поскольку даже небольшие фактические ошибки могут существенно исказить выводы и привести к неверным решениям. Необходимость автоматизированных и эффективных методов проверки фактической точности ГИО становится всё более актуальной для обеспечения достоверности и надёжности получаемой информации.

Современные глубокие исследовательские отчёты (ГИО) характеризуются беспрецедентным объёмом и сложностью, что создаёт серьёзные трудности для традиционных методов проверки фактов. Ручная верификация становится непосильной задачей, а существующие автоматизированные системы часто оказываются неспособными справиться с многообразием источников, нюансами языка и необходимостью контекстуального анализа. В связи с этим, возникает острая потребность в разработке принципиально новых подходов к автоматической верификации фактов, использующих передовые методы обработки естественного языка, машинного обучения и анализа больших данных. Эти системы должны быть способны не просто извлекать информацию из текста, но и оценивать её достоверность, сопоставляя с другими источниками, выявляя противоречия и оценивая надёжность источников.

Установление достоверности исходных данных, или «истины в последней инстанции», является краеугольным камнем оценки глубоких исследовательских отчетов. Однако существующие оценочные критерии и наборы данных зачастую оказываются недостаточно надежными для адекватной проверки. Это связано с тем, что они могут быть предвзятыми, не охватывать весь спектр возможных фактов, или содержать неточности, что приводит к ошибочным выводам о качестве отчета. Недостаточная строгость при формировании «золотого стандарта» истины препятствует разработке действительно эффективных систем автоматической проверки фактов и ограничивает возможности объективной оценки результатов глубоких исследований. Поэтому, создание более robustных и всесторонних benchmark-ов, способных выявлять даже незначительные неточности, является критически важной задачей для обеспечения достоверности и надежности научных исследований.

Анализ DeepFact-Eval на наборах данных SciFact, ExpertQA и Factcheck-Bench показывает, что расхождения между предсказаниями верификатора и эталонными метками могут быть связаны с несоответствием аннотаций или ошибками модели, что позволяет оценить надежность верификации фактов.
Анализ DeepFact-Eval на наборах данных SciFact, ExpertQA и Factcheck-Bench показывает, что расхождения между предсказаниями верификатора и эталонными метками могут быть связаны с несоответствием аннотаций или ошибками модели, что позволяет оценить надежность верификации фактов.

Улучшение эталонов: протокол «Аудит-оценка»

Протокол “Аудит-оценка” (Audit-then-Score, AtS) представляет собой итеративный процесс улучшения эталонных наборов данных (benchmarks) за счет экспертной оценки и присвоения баллов. В рамках AtS, эксперты проводят аудит существующих данных, выявляя и исправляя неточности или ошибки. Этот процесс повторяется несколько раз, с каждым циклом повышая качество и достоверность эталонного набора данных. Оценка, проводимая экспертами, служит основой для количественной оценки производительности систем автоматической проверки фактов и позволяет отслеживать улучшения в точности и надежности этих систем с течением времени.

Протокол “Аудит-затем-Оценка” (AtS) предполагает активный поиск и исправление неточностей в существующих бенчмарках. Этот процесс не ограничивается однократной проверкой; он является итеративным и направлен на постоянное повышение качества эталонных данных. Регулярный аудит включает в себя экспертную оценку каждого утверждения в бенчмарке с целью выявления и устранения ошибок, противоречий или двусмысленностей. В результате, бенчмарк постепенно приближается к более точному и надежному представлению “истины”, что критически важно для адекватной оценки систем автоматической верификации фактов и обеспечения воспроизводимости результатов.

В качестве надежной основы для оценки автоматизированных систем проверки фактов используется развивающийся бенчмарк DeepFact-Bench. Итеративное совершенствование, основанное на протоколе ‘Audit-then-Score’, позволило добиться повышения точности ручной аннотации на 4.9% в Раунде 3 по сравнению с Раундом 2. Статистически значимый прирост точности подтвержден 95% доверительным интервалом [1.4, 7.9], что свидетельствует о повышении качества и надежности эталонных данных для оценки систем автоматической проверки фактов.

Метод Audit-then-Score (AtS) позволяет динамически совершенствовать эталонные тесты, последовательно оценивая агента-претендента, проверяя его аргументы экспертом и обновляя эталон в случае обоснованного несогласия, что обеспечивает постоянное повышение сложности и реалистичности тестов.
Метод Audit-then-Score (AtS) позволяет динамически совершенствовать эталонные тесты, последовательно оценивая агента-претендента, проверяя его аргументы экспертом и обновляя эталон в случае обоснованного несогласия, что обеспечивает постоянное повышение сложности и реалистичности тестов.

DeepFact-Eval: продвинутый агент верификации

DeepFact-Eval представляет собой многоступенчатый агент верификации, разработанный специально для оценки фактической достоверности данных, полученных в результате извлечения информации (DRR). Система использует автоматизированные методы проверки фактов, позволяющие оценивать соответствие извлеченных утверждений внешним источникам и базам знаний. Многоступенчатая архитектура позволяет последовательно проводить различные проверки, повышая надежность и точность оценки фактической корректности информации, полученной в процессе DRR.

Система DeepFact-Eval использует автоматизированные методы оценки качества и достоверности утверждений, в частности, подход LLM-as-a-Judge, при котором большая языковая модель выступает в роли судьи, оценивающего правдивость предоставленных утверждений. Дополнительно, применяются Reward Models — модели, обученные оценивать качество генерируемого текста и используемые для ранжирования и оценки утверждений на основе заранее заданных критериев достоверности. Комбинация этих методов позволяет автоматизировать процесс проверки фактов и повысить точность оценки утверждений без участия человека.

Эффективность DeepFact-Eval значительно повышается благодаря способности системы решать сложные задачи рассуждения, в частности, многошаговые вопросы-ответы (multi-hop question answering). В ходе тестирования DeepFact-Eval продемонстрировал общую точность в 83.4%, что превосходит показатели традиционных конвейеров проверки фактов. Это указывает на улучшенную способность системы к анализу информации и выявлению неточностей в сложных контекстах, где требуется синтез информации из нескольких источников для подтверждения или опровержения утверждения.

В ходе аудиторских раундов AtS точность оценки на наборе данных Micro-golds последовательно улучшалась благодаря использованию экспертных оценок.
В ходе аудиторских раундов AtS точность оценки на наборе данных Micro-golds последовательно улучшалась благодаря использованию экспертных оценок.

Обеспечение качества и надёжности аннотаций

Несмотря на сохраняющуюся важность экспертной разметки данных, необходимо проводить её непрерывную оценку для предотвращения систематических ошибок. Использование исключительно экспертной оценки без регулярного контроля может привести к накоплению предвзятостей или неточностей, которые негативно скажутся на качестве и надежности моделей машинного обучения. Поэтому, для обеспечения высокой точности и воспроизводимости результатов, процессы экспертной разметки должны включать механизмы валидации, такие как перекрестная проверка, оценка согласованности между экспертами и выявление аномалий в данных.

Встроенные в эталонный набор данных “скрытые микро-золотые” утверждения функционируют как состязательные тесты, предназначенные для выявления систематических ошибок и предвзятостей в практиках аннотирования. Эти утверждения, незаметно включенные в общий массив данных, представляют собой заранее известные факты, позволяющие оценить способность системы корректно идентифицировать и подтверждать информацию. Обнаружение неспособности системы распознать эти “золотые” утверждения указывает на потенциальные недостатки в процессе аннотирования, такие как неточности, несогласованность или предвзятость аннотаторов, что требует дальнейшей проверки и корректировки методологии аннотирования.

Интеграция систем открытых вопросов и ответов (Open-Domain Question Answering) совместно с атрибуцией источников информации значительно повышает способность системы к верификации утверждений и поиску подтверждающих доказательств. В ходе тестирования было зафиксировано увеличение точности на 14.7% по сравнению с GPT-Researcher (95% доверительный интервал: [7.4, 23.3]) и на 15.0% по сравнению со SmolAgents (95% доверительный интервал: [9.5, 20.5]). Данный подход позволяет не только извлекать информацию из различных источников, но и подтверждать её достоверность, указывая на конкретные подтверждающие данные.

В ходе аудиторских раундов AtS точность оценки на наборе данных Micro-golds последовательно улучшалась благодаря использованию экспертных оценок.
В ходе аудиторских раундов AtS точность оценки на наборе данных Micro-golds последовательно улучшалась благодаря использованию экспертных оценок.

Исследование, представленное в статье, стремится к созданию динамичного эталона для проверки фактической точности глубоких исследовательских отчетов, генерируемых большими языковыми моделями. Подобный подход, основанный на постоянной эволюции критериев и протоколах аудита, позволяет обойти ограничения статических тестов и субъективности человеческой оценки. Как однажды заметил Кен Томпсон: «Простота — это высшая форма утонченности». И в данном случае, стремление к ясности и минимизации погрешностей в процессе верификации фактов, является ключом к созданию действительно надежных и полезных систем. Ведь сложность лишь маскирует несовершенство, а ясность — это минимальная форма любви к истине.

Что дальше?

Представленная работа, несомненно, представляет собой шаг к более строгой оценке фактической точности генерируемых больших языковыми моделями научных отчетов. Однако, иллюзия полного контроля над «истиной» всегда опасна. Эволюционирующие бенчмарки, хоть и необходимы, лишь отражают текущее состояние знаний, которое, как известно, подвержено постоянным изменениям. Вопрос не в создании идеального теста, а в признании фундаментальной неопределенности.

Наиболее сложной задачей остается не столько автоматическое выявление фактических ошибок, сколько определение значимости этих ошибок. Ошибка в детали, несущественной для общей картины, и принципиальная неверность — качественно разные вещи. Попытки формализовать эту «важность» рискуют вновь упереться в субъективность, замаскированную под объективность алгоритма. Необходимо сместить акцент с «аудита, а затем оценки» на разработку систем, способных самостоятельно оценивать уровень собственной уверенности в достоверности генерируемой информации.

В конечном счете, истинный прогресс заключается не в создании все более сложных систем проверки, а в разработке моделей, способных к самокритике и признанию собственных ограничений. Стремление к абсолютной точности — это лишь очередная форма тщеславия. Достаточно лишь того, чтобы система могла ясно обозначить границы своей компетенции.


Оригинал статьи: https://arxiv.org/pdf/2603.05912.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-10 06:03