Искусственный интеллект и новостные сайты: новая реальность

Автор: Денис Аветисян


Исследование показывает, как генеративные модели ИИ меняют ландшафт онлайн-новостей, влияя на трафик и стратегии издателей.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Трафик новостного веб-сайта в августе 2024 года демонстрирует динамику посещаемости, отражая интерес аудитории к текущим событиям и информационным потребностям в указанный период.
Трафик новостного веб-сайта в августе 2024 года демонстрирует динамику посещаемости, отражая интерес аудитории к текущим событиям и информационным потребностям в указанный период.

Анализ влияния больших языковых моделей на потребление и производство новостного контента, а также реакцию новостных издателей на появление ИИ-ботов.

Несмотря на оптимистичные прогнозы о революционном влиянии больших языковых моделей (LLM) на цифровую среду, их воздействие на новостную индустрию остается сложным и неоднозначным. Данное исследование, озаглавленное ‘The Impact of LLMs on Online News Consumption and Production’, анализирует изменения в потреблении и создании новостей, вызванные распространением генеративного искусственного интеллекта. Полученные результаты свидетельствуют о том, что хотя LLM пока не привели к сокращению штата журналистов, издатели фиксируют снижение трафика и вынуждены блокировать AI-ботов, одновременно смещая акцент в сторону более интерактивного и визуально насыщенного контента. Какие долгосрочные последствия эти тенденции окажут на устойчивость и развитие новостной экосистемы в эпоху генеративного ИИ?


Сдвиг парадигмы: от поиска к синтезу информации

На протяжении десятилетий традиционный поиск являлся основой доступа к информации в сети, направляя пользователей к источникам, где они могли найти ответы самостоятельно. Однако, эта устоявшаяся модель подвергается серьезной трансформации благодаря появлению больших языковых моделей (LLM). Вместо перенаправления на веб-страницы, LLM способны синтезировать ответы непосредственно, предоставляя пользователям сжатую и релевантную информацию без необходимости покидать интерфейс чата или приложения. Этот новый подход, предлагающий прямой доступ к знаниям, представляет собой фундаментальный сдвиг в способах взаимодействия с информацией, ставя под вопрос доминирование традиционных поисковых систем и потенциально изменяя ландшафт онлайн-контента.

Переход к получению прямых ответов от больших языковых моделей представляет собой серьезную угрозу для традиционных издателей. Вместо посещения веб-сайтов и ознакомления с материалами, пользователи все чаще получают сжатую информацию непосредственно от искусственного интеллекта, что лишает издателей трафика и, как следствие, рекламных доходов. Данная тенденция способна радикально изменить существующие бизнес-модели в медиаиндустрии и нарушить устоявшийся порядок распространения информации, поскольку контроль над потоком данных перемещается от создателей контента к платформам, предоставляющим доступ к языковым моделям. В долгосрочной перспективе это может привести к снижению качества журналистских материалов и ограничению разнообразия источников информации, если не будут найдены новые способы монетизации контента и поддержки независимой журналистики.

В отличие от традиционных поисковых систем, которые лишь направляют пользователя к источникам информации, большие языковые модели (LLM) осуществляют синтез ответов, что кардинально меняет способ взаимодействия с веб-контентом. Вместо перебора ссылок и самостоятельного анализа, пользователь получает готовый, скомпилированный ответ, основанный на обработке огромного массива данных. Этот переход означает, что взаимодействие со знаниями становится более прямым и эффективным, но одновременно и менее прозрачным в отношении источников и методов формирования ответа. Такой подход трансформирует роль веб-сайтов из поставщиков информации в источники данных для LLM, что может привести к переосмыслению принципов публикации и распространения знаний в цифровой среде.

Наблюдаемый тренд ежедневного трафика издателей демонстрирует устойчивую динамику посещаемости.
Наблюдаемый тренд ежедневного трафика издателей демонстрирует устойчивую динамику посещаемости.

Как LLM «читают» сеть: сбор и контроль данных

Большие языковые модели (LLM) используют веб-краулеры, известные как LLM-краулеры, для сбора и обработки информации из сети Интернет. Принцип их работы аналогичен работе поисковых роботов, используемых поисковыми системами, такими как Google или Yandex. LLM-краулеры систематически обходят веб-сайты, следуя по ссылкам и извлекая текстовый контент. Полученные данные затем используются для обучения и функционирования LLM, позволяя им генерировать текст, отвечать на вопросы и выполнять другие задачи. Процесс включает в себя отправку HTTP-запросов к веб-серверам, получение HTML-кода страниц и последующий парсинг этого кода для извлечения релевантного текста.

Издатели используют файлы “Robots.txt” для управления доступом LLM-краулеров к различным разделам своих веб-сайтов. Этот файл представляет собой текстовый документ, размещенный в корневом каталоге сайта, который содержит инструкции для поисковых роботов и, теперь, для краулеров больших языковых моделей. В нем указываются директивы, разрешающие или запрещающие индексацию определенных URL-адресов или целых разделов сайта. Эффективное использование “Robots.txt” позволяет издателям контролировать, какая информация будет доступна LLM для обучения и использования, что является ключевым аспектом управления контентом и потенциальным трафиком.

Эффективность файла robots.txt приобретает первостепенное значение в связи с активным использованием больших языковых моделей (LLM). Этот файл определяет, какие части веб-сайта могут быть проиндексированы и использованы LLM для обучения и формирования ответов. Блокировка доступа к контенту через robots.txt напрямую влияет на видимость сайта в результатах, генерируемых LLM, и, как следствие, на потенциальный трафик, который сайт может получить от пользователей, взаимодействующих с этими моделями. Игнорирование или неправильная настройка robots.txt может привести к несанкционированному использованию контента сайта LLM, а также к снижению его позиций в поисковой выдаче, формируемой моделями.

Метод разностной разности в ступенчатом режиме (Staggered DiD) позволяет оценить влияние блокировки ботов, использующих генеративный искусственный интеллект, на трафик издателей.
Метод разностной разности в ступенчатом режиме (Staggered DiD) позволяет оценить влияние блокировки ботов, использующих генеративный искусственный интеллект, на трафик издателей.

Информационный потоп: расцвет «контентного мусора»

Появление генеративных моделей искусственного интеллекта значительно упростило процесс создания контента, что привело к резкому увеличению объема публикуемых материалов. Этот феномен, получивший название “контентный спам” (или “контентная каша”), характеризуется массовым производством текстов, изображений и видео низкого качества, часто без фактической ценности или оригинальности. Технологии, позволяющие автоматизировать написание статей, создание изображений и даже генерацию видеороликов, доступны широкому кругу пользователей, что приводит к экспоненциальному росту объемов контента, публикуемого в сети. Этот рост, в свою очередь, создает проблему для поисковых систем, LLM-моделей и потребителей информации, которым становится все сложнее отделить качественный контент от низкокачественного, автоматически сгенерированного.

Наплыв низкокачественного контента, генерируемого ИИ, создает угрозу перегрузки веб-пространства. Это может привести к тому, что материалы от авторитетных издателей будут вытеснены в обучающих наборах данных для больших языковых моделей (LLM) и в результатах поисковых систем. Поскольку LLM обучаются на огромных объемах данных из интернета, преобладание “контентного мусора” может исказить их способность генерировать точную и релевантную информацию, а также снизить видимость оригинального, профессионально созданного контента в поисковой выдаче. Увеличение доли некачественных материалов в обучающих данных может привести к ухудшению качества генерируемого ИИ контента и затруднить пользователям поиск достоверной информации.

В связи с растущим объемом контента, генерируемого искусственным интеллектом, возникает необходимость в надежных методах оценки качества и выявления оригинальных материалов для защиты издателей. Существующие системы ранжирования и обнаружения плагиата часто неэффективны в отношении контента, созданного ИИ, требуя разработки новых алгоритмов, способных отличать оригинальный журналистский материал от сгенерированного. Ключевыми направлениями исследований являются анализ лингвистических особенностей, выявление уникальных источников информации и применение методов цифровой криминалистики для определения авторства. Защита авторских прав и поддержание качества информации в сети напрямую зависят от внедрения таких методов.

Анализ показал, что значительная доля веб-сайтов блокирует доступ ботам, использующим генеративный искусственный интеллект.
Анализ показал, что значительная доля веб-сайтов блокирует доступ ботам, использующим генеративный искусственный интеллект.

Измерение влияния: эмпирические данные

Для оценки причинно-следственной связи между доступом через большие языковые модели (LLM) и изменениями трафика на сайтах издателей использовались методы ‘Synthetic Difference-in-Differences’ и ‘Two-Way Fixed Effects’. Метод ‘Synthetic Difference-in-Differences’ позволяет создать контрольную группу, максимально схожую с исследуемой, чтобы исключить влияние других факторов. ‘Two-Way Fixed Effects’ учитывает как фиксированные эффекты по времени, так и по объектам исследования (в данном случае, издателям), что позволяет контролировать ненаблюдаемые гетерогенные факторы, влияющие на трафик. Комбинация этих методологий обеспечивает более надежную оценку влияния LLM на посещаемость веб-сайтов издателей, минимизируя смещение, вызванное другими переменными.

Для оценки изменений в посещаемости веб-сайтов издателей использовались данные трех источников: панели веб-поведения ‘Comscore Web-Behavior Panel’, сервиса веб-аналитики ‘SimilarWeb’ и архива веб-страниц ‘HTTP Archive’. ‘Comscore Web-Behavior Panel’ предоставляет данные о поведении пользователей в сети, включая посещения сайтов. ‘SimilarWeb’ обеспечивает агрегированную статистику трафика веб-сайтов, позволяя отслеживать общие тенденции посещаемости. ‘HTTP Archive’ предоставляет исторические данные о веб-страницах, включая размер, структуру и использование различных технологий, что позволяет анализировать изменения в контенте и технических характеристиках сайтов издателей. Комбинация этих источников данных позволила получить комплексное представление о динамике трафика и выявить изменения в посещаемости веб-сайтов после августа 2024 года.

Анализ данных, полученных в результате исследований, показал снижение посещаемости новостных веб-сайтов на 13.2% после августа 2024 года. При этом, издатели, заблокировавшие веб-краулеров, использующих генеративный искусственный интеллект (GenAI), зафиксировали более существенное падение трафика — на 23.1%. Данные изменения были установлены на основе анализа данных, полученных от ‘Comscore Web-Behavior Panel’, ‘SimilarWeb’ и ‘HTTP Archive’, что позволяет оценить динамику посещаемости и выявить влияние блокировки GenAI-краулеров на общий трафик веб-сайтов.

Оценка разностной разности (DiD) показывает, что влияние на трафик Comscore различается в зависимости от размера издателя.
Оценка разностной разности (DiD) показывает, что влияние на трафик Comscore различается в зависимости от размера издателя.

Навигация в будущем онлайн-издательств

Исследования показали заметное изменение в источниках трафика веб-сайтов, что указывает на растущую роль доступа, опосредованного большими языковыми моделями (LLM). Данный сдвиг свидетельствует о том, что все большая часть пользователей получает информацию не напрямую, а через интеллектуальные системы, обрабатывающие и предоставляющие контент. Это означает, что оптимизация контента не только для поисковых систем, но и для эффективной работы с LLM становится критически важной задачей для издателей. Понимание того, как LLM интерпретируют и используют информацию, позволяет создавать контент, который будет более эффективно распространяться и привлекать целевую аудиторию в новой цифровой среде.

Эффективное использование файла robots.txt и высокое качество контента являются ключевыми факторами для поддержания видимости и контроля издателей в современном цифровом пространстве. Исследования показывают, что грамотная настройка robots.txt позволяет оптимизировать индексацию сайта поисковыми системами и контролировать доступ к определенным разделам, предотвращая перегрузку и обеспечивая приоритетное сканирование наиболее важного контента. Одновременно с этим, акцент на оригинальность, актуальность и полезность материалов значительно повышает привлекательность сайта для пользователей, стимулируя органический трафик и улучшая позиции в поисковой выдаче. В конечном итоге, сочетание технической оптимизации и высокого качества контента позволяет издателям не только привлекать целевую аудиторию, но и сохранять контроль над своим цифровым присутствием в условиях растущей конкуренции.

Исследования показали, что блокировка веб-сайтами генеративных ИИ-краулеров приводит к заметному снижению посещаемости от реальных пользователей — в среднем на 13,9% по данным Comscore. Этот тренд совпадает с растущей тенденцией к использованию интерактивных элементов и рекламных технологий на веб-страницах. В частности, зафиксировано увеличение количества страниц с интерактивным контентом на 68,1%, а страниц с рекламными и таргетированными технологиями — на 50,1% по сравнению с обычными розничными веб-сайтами. Данные свидетельствуют о том, что современные веб-сайты активно адаптируются к изменяющемуся ландшафту поисковых систем, стремясь удержать трафик и повысить вовлеченность пользователей посредством более динамичного и персонализированного контента.

Анализ показывает, что доля блокировки трафика новостными издателями ботами, генерируемыми искусственным интеллектом, варьируется в зависимости от их ранга в рейтинге посещаемости и категории розничных продавцов.
Анализ показывает, что доля блокировки трафика новостными издателями ботами, генерируемыми искусственным интеллектом, варьируется в зависимости от их ранга в рейтинге посещаемости и категории розничных продавцов.

Исследование влияния больших языковых моделей на новостные ресурсы демонстрирует любопытную адаптацию издателей. Вместо неминуемого замещения контента, наблюдается снижение трафика и, как следствие, блокировка AI-краулеров. Этот процесс подчеркивает, что данные о посещаемости — лишь приближение к реальности, а не сама реальность. Как однажды заметил Альберт Эйнштейн: «Самое главное — не переставать задавать вопросы». Издатели, отказываясь от простого следования тенденциям, выбирают путь проверки и адаптации, переходя к более насыщенным мультимедийным форматам и корректируя производственные процессы. Отказ от сокращения штата редакторов — разумный шаг, ведь качественная аналитика и критическое мышление остаются незаменимыми, даже в эпоху генеративного ИИ.

Куда смотрит горизонт?

Представленные данные свидетельствуют о том, что не искусственный интеллект заменил новостные редакции, а скорее заставил их адаптироваться. Падение трафика, зафиксированное издателями, не является прямым следствием роботизации, а, вероятно, отражает более глубокие изменения в потребительских привычках и алгоритмах ранжирования. Блокировка AI-краулеров, наблюдаемая в ответ, выглядит скорее как попытка удержать контроль над уже утекающим потоком внимания, чем как эффективная стратегия долгосрочного выживания.

Всё, что нельзя измерить, всё равно влияет — и эта аксиома особенно актуальна в контексте новостного потребления. Попытки оценить влияние LLM исключительно через статистику посещаемости сайтов упускают из виду качественные изменения в восприятии информации. Переход к более насыщенному мультимедийному контенту может быть как адаптацией к новым технологиям, так и признаком того, что текст как таковой теряет свою ценность.

Данные — не цель, а зеркало человеческих ошибок. Будущие исследования должны сосредоточиться не на количественном определении «замены» журналистов, а на изучении того, как меняется сама природа новостей и как эти изменения влияют на общественное сознание. И, возможно, стоит признать, что погоня за трафиком всегда была иллюзией, а истинная ценность журналистики заключается в чём-то другом.


Оригинал статьи: https://arxiv.org/pdf/2512.24968.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-02 21:41