Сеть лжи и правды: проверка фактов в китайском интернете

Автор: Денис Аветисян


Новое исследование анализирует, насколько надежную информацию выдают китайские поисковые системы, большие языковые модели и AI-обзоры.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал
Оценка точности предсказаний, проведенная для поисковых систем (Baidu, Bing, Sogou) и больших языковых моделей (DeepSeek, Qwen, LLaMA), а также для обзора на основе искусственного интеллекта от Baidu, демонстрирует колебания в проценте верных ответов, отраженные доверительными интервалами, рассчитанными с использованием бутстрэпа (95%), при этом средний процент верных предсказаний обозначен пунктирной красной линией.
Оценка точности предсказаний, проведенная для поисковых систем (Baidu, Bing, Sogou) и больших языковых моделей (DeepSeek, Qwen, LLaMA), а также для обзора на основе искусственного интеллекта от Baidu, демонстрирует колебания в проценте верных ответов, отраженные доверительными интервалами, рассчитанными с использованием бутстрэпа (95%), при этом средний процент верных предсказаний обозначен пунктирной красной линией.

Оценка фактической достоверности информации, предоставляемой поисковыми системами, большими языковыми моделями и AI-обзорами в китайском сегменте интернета, с учетом географических различий в подверженности дезинформации.

Несмотря на растущую интеграцию больших языковых моделей (LLM) в поисковые системы, достоверность предоставляемой ими информации в неанглоязычном сегменте интернета остается малоизученной. В работе ‘Misinformation Exposure in the Chinese Web: A Cross-System Evaluation of Search Engines, LLMs, and AI Overviews’ проведено сравнительное исследование традиционных поисковиков, автономных LLM и AI-обзоров на предмет фактической точности ответов на реальные запросы китайских пользователей. Полученные результаты указывают на существенные различия в точности и вариативности ответов в зависимости от системы и тематики запроса, а также выявляют региональные различия в потенциальном воздействии недостоверной информации. Какие меры необходимо предпринять для обеспечения большей надежности и прозрачности инструментов доступа к информации в цифровом пространстве?


Фундамент достоверности: Набор данных для фактических запросов

В современном информационном пространстве доступ к достоверным сведениям имеет первостепенное значение, однако поисковые системы и модели искусственного интеллекта нередко распространяют неточности. Эта проблема обусловлена сложностью верификации огромных объемов данных, а также предвзятостью алгоритмов и неполнотой информации, на которой они обучаются. В результате, пользователи могут получать ответы, основанные на ложных или устаревших данных, что приводит к ошибочным выводам и неверным решениям. Поэтому критически важно разрабатывать инструменты и методы, позволяющие выявлять и устранять неточности в информации, предоставляемой поисковыми системами и моделями ИИ, обеспечивая тем самым надежность и достоверность получаемых результатов.

Для обеспечения надежной оценки качества систем поиска и моделей искусственного интеллекта, критически важен доступ к масштабному, верифицированному набору китайских поисковых запросов. Отсутствие таких данных затрудняет объективную проверку способности систем предоставлять точную и достоверную информацию. Поэтому создание тщательно проверенного корпуса запросов позволяет выявить и исправить потенциальные неточности, а также повысить общую надежность поисковых технологий. Этот подход не только улучшает качество предоставляемых ответов, но и способствует развитию более ответственных и заслуживающих доверия систем, способных эффективно обрабатывать информацию на китайском языке.

В основе создания набора данных для фактических запросов лежит масштабный T2Ranking Dataset, состоящий из более чем 12 161 проверенных вопросов, требующих ответа “да” или “нет”. Этот набор данных не просто коллекция запросов, а отражение реального поведения пользователей при поиске информации. Использование верифицированных вопросов гарантирует, что оценка систем поиска и моделей искусственного интеллекта проводится на основе фактических данных, а не на гипотетических или предвзятых сценариях. Именно благодаря такому подходу, основанному на реальных поисковых запросах, становится возможной объективная и надежная оценка способности систем предоставлять точную и правдивую информацию.

Сравнение точности ответов поисковых систем Bing, Sogou и Baidu на фактические вопросы типа
Сравнение точности ответов поисковых систем Bing, Sogou и Baidu на фактические вопросы типа «да/нет» показывает, что все они демонстрируют сопоставимую производительность, оцениваемую с 95% доверительным интервалом (обозначен красной пунктирной линией).

Оценка информационных систем: Поиск и извлечение

Традиционные поисковые системы, основанные на методе извлечения информации, такие как Sogou, Baidu и Bing, представляют собой первичный уровень доступа пользователей к информации в сети. Данный подход предполагает сопоставление поискового запроса с индексированными документами и выдачу результатов, соответствующих заданным критериям. Эти системы функционируют путем анализа ключевых слов в запросе и поиска соответствующих слов в базе данных веб-страниц. В отличие от более современных подходов, использующих, например, семантический анализ или машинное обучение для понимания намерения пользователя, поисковые системы, основанные на извлечении информации, полагаются в основном на точное совпадение ключевых слов, что определяет эффективность и релевантность предоставляемых результатов.

Оценка точности поисковых систем имеет критическое значение, поскольку неточности напрямую влияют на доверие пользователей и процесс принятия решений. Неверные или устаревшие данные, предоставляемые поисковыми системами, могут приводить к ошибочным выводам, неверным оценкам рисков и, как следствие, к неоптимальным или даже вредным действиям. Потеря доверия к поисковым системам снижает их эффективность как инструмента для получения информации и может стимулировать пользователей к поиску альтернативных источников, требующих дополнительных усилий для верификации данных. Поэтому, поддержание высокого уровня точности является ключевым фактором для обеспечения надежности и полезности поисковых систем.

При оценке точности поисковых систем, таких как Sogou, Baidu и Bing, было установлено, что они демонстрируют сопоставимые результаты. В частности, поисковая система Baidu достигла 63,7% правильных прогнозов на наборе фактических запросов. Этот показатель служит эталоном для оценки качества информации, предоставляемой пользователям в ответ на фактические вопросы, и позволяет сравнивать эффективность различных поисковых алгоритмов и систем.

Сравнение точности поисковых систем Bing, Sogou и Baidu по десяти тематическим категориям показывает, что средняя точность предсказаний для каждой системы обозначена красной пунктирной линией.
Сравнение точности поисковых систем Bing, Sogou и Baidu по десяти тематическим категориям показывает, что средняя точность предсказаний для каждой системы обозначена красной пунктирной линией.

Большие языковые модели: Новый рубеж в проверке фактов

В последнее время наблюдается растущая тенденция использования больших языковых моделей (LLM), таких как DeepSeek, Qwen и LLaMA, в задачах автоматической проверки фактов. Эти модели применяются для анализа утверждений и сопоставления их с существующими источниками информации с целью определения их достоверности. Автоматизация процесса проверки фактов с помощью LLM позволяет значительно увеличить скорость обработки информации и снизить трудозатраты, что особенно актуально в условиях постоянно растущего объема данных и необходимости оперативной реакции на дезинформацию. Применение LLM в этой области находится на ранней стадии развития, однако уже демонстрирует перспективные результаты и потенциал для повышения точности и эффективности проверки фактов.

Оценка точности больших языковых моделей (LLM) имеет первостепенное значение, поскольку эти модели способны генерировать правдоподобную, но неверную информацию. Несмотря на впечатляющие возможности в обработке и генерации текста, LLM не обладают встроенным механизмом для проверки истинности фактов. Это означает, что модель может с высокой степенью уверенности выдавать ложные утверждения, что представляет серьезную проблему при использовании LLM в задачах, требующих высокой надежности, таких как проверка фактов, журналистика и научные исследования. Поэтому критически важно проводить тщательную оценку точности LLM, используя специализированные наборы данных и метрики, для выявления и минимизации риска распространения дезинформации.

В ходе тестирования, модели больших языковых моделей (LLM) продемонстрировали значительную эффективность в задачах автоматической проверки фактов. Модель Qwen показала наивысший процент правильных прогнозов — 68.5%, опережая DeepSeek с результатом 63.3%. Модель LLaMA также продемонстрировала конкурентоспособные результаты, подтверждая возможность использования вычислительных методов для повышения точности и надежности проверки информации. Данные результаты указывают на потенциал LLM в качестве инструмента для автоматизации и масштабирования процессов проверки фактов.

Сравнение трех больших языковых моделей (DeepSeek, Qwen и LLaMA) по точности предсказаний на уровне тем в десяти предметных областях показывает, что каждая модель демонстрирует различную эффективность, при этом средний показатель точности для каждой модели обозначен красной пунктирной линией.
Сравнение трех больших языковых моделей (DeepSeek, Qwen и LLaMA) по точности предсказаний на уровне тем в десяти предметных областях показывает, что каждая модель демонстрирует различную эффективность, при этом средний показатель точности для каждой модели обозначен красной пунктирной линией.

Количественная оценка подверженности дезинформации в Китае

Разработан новый показатель оценки подверженности населения недостоверной информации, объединяющий данные поисковых запросов в китайской поисковой системе Baidu (индекс Baidu) с уровнем точности ответов, предоставляемых поисковой системой и большими языковыми моделями. Данный показатель позволяет количественно оценить потенциальный охват пользователей неточной информацией, учитывая как популярность определенных запросов, так и способность систем находить и предоставлять достоверные ответы. Комбинирование этих двух ключевых параметров создает комплексную метрику, позволяющую не только выявить темы, наиболее подверженные распространению дезинформации, но и оценить, насколько эффективно существующие системы фильтруют и корректируют неточные данные, предоставляемые пользователям. Использование индекса Baidu в сочетании с оценкой точности систем обеспечивает более реалистичную картину воздействия недостоверной информации на население Китая.

Разработанный показатель потенциального воздействия недостоверной информации позволяет количественно оценить степень, в которой пользователи могут сталкиваться с неточными сведениями. Этот показатель объединяет данные о частоте поисковых запросов в Baidu с оценками точности как поисковой системы, так и больших языковых моделей. Вместо субъективных оценок или анализа отдельных случаев, данный подход предлагает объективную меру, позволяющую сравнить уровень потенциального воздействия дезинформации среди пользователей в различных регионах и временных промежутках. Такой количественный подход открывает возможности для более глубокого анализа распространения недостоверной информации и разработки эффективных стратегий по борьбе с ней, позволяя отслеживать изменения в информационной среде и оценивать эффективность принимаемых мер.

Анализ данных по Китаю выявил существенные географические различия в доступе к информации и подверженности дезинформации среди различных провинций. Исследование показало, что уровень воздействия неточной информации значительно варьируется в зависимости от региона, что указывает на неравномерность информационного поля в стране. Примечательно, что система искусственного интеллекта Baidu Overview продемонстрировала наивысшую общую точность — 69.8%, превосходя другие источники в части предоставления достоверной информации. Эти результаты подчеркивают важность учета региональных особенностей при оценке рисков, связанных с распространением ложных сведений, и необходимости разработки адресных стратегий по повышению медиаграмотности населения в различных частях Китая.

Индекс освещения на уровне провинций, рассчитанный на основе объединенных показателей точности трех основных поисковых систем (Baidu, Bing, Sogou), демонстрирует географическое распределение доступности информации о здоровье, где более темные оттенки указывают на меньшую доступность, а более светлые - на большую.
Индекс освещения на уровне провинций, рассчитанный на основе объединенных показателей точности трех основных поисковых систем (Baidu, Bing, Sogou), демонстрирует географическое распределение доступности информации о здоровье, где более темные оттенки указывают на меньшую доступность, а более светлые — на большую.

Исследование показывает, что фактическая надежность поисковых систем, больших языковых моделей и AI Overview на китайском веб-пространстве варьируется в зависимости от тематики и используемой системы. Данный факт подчеркивает необходимость строгого подхода к проверке информации и доказательству корректности алгоритмов. Как однажды заметил Анри Пуанкаре: «Математия — это искусство логически точного мышления». Эта фраза особенно актуальна в контексте анализа информации, поскольку требует от систем не просто выдавать результаты, но и демонстрировать их обоснованность, подобно математической теореме, доказанной строгими логическими шагами. Иначе, любое утверждение остается лишь предположением, а не истиной, подтвержденной доказательствами.

Куда двигаться дальше?

Представленное исследование, несмотря на свою практическую направленность, лишь подчеркивает фундаментальную сложность задачи верификации информации. Выявленные расхождения в точности между поисковыми системами, большими языковыми моделями и системами AI Overview — не просто технические недостатки, а отражение неполноты и неоднозначности самой информации, циркулирующей в китайском сегменте сети. Любая попытка автоматической проверки фактов неизбежно сталкивается с границами формализации знания, где истина не является бинарной величиной.

Будущие исследования должны сосредоточиться не только на повышении точности алгоритмов, но и на разработке более строгих метрик оценки. Простое определение “правда” или “ложь” представляется упрощением, скрывающим нюансы и контекст. Необходимо учитывать степень уверенности, источники информации и потенциальные предубеждения. Особое внимание следует уделить географическим различиям в подверженности дезинформации, ведь локальный контекст часто играет решающую роль.

В конечном счете, поиск абсолютной истины в информационном потоке — задача, возможно, невыполнимая. Более реалистичным представляется стремление к минимизации неопределенности и повышению прозрачности алгоритмов. Каждый байт избыточности в системе — потенциальная ошибка, и каждое упрощение — источник искажений. Идеальная система должна быть не просто точной, но и осознавать границы своей компетенции.


Оригинал статьи: https://arxiv.org/pdf/2602.22221.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-01 23:10