Распознаём рекламу, сгенерированную ИИ: новые вызовы

Автор: Денис Аветисян


Исследование посвящено оценке эффективности алгоритмов выявления рекламного контента, созданного с помощью больших языковых моделей, и их устойчивости к различным стилям подачи.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал
Исследование демонстрирует, что при генерации рекламных вставок в ответах, полученных с использованием подхода RAG, можно добиться различной степени откровенности - от явной рекламы до эмоционального воздействия, что позволяет адаптировать стиль подачи материала к конкретной задаче и целевой аудитории.
Исследование демонстрирует, что при генерации рекламных вставок в ответах, полученных с использованием подхода RAG, можно добиться различной степени откровенности — от явной рекламы до эмоционального воздействия, что позволяет адаптировать стиль подачи материала к конкретной задаче и целевой аудитории.

Оценка устойчивости систем обнаружения рекламы, созданной с использованием Retrieval-Augmented Generation, к изменениям стиля и используемой модели генерации.

Современные генеративные модели, расширенные поиском, открывают новые возможности для скрытой рекламы, смешивая органические ответы с рекламным контентом. В работе ‘Detecting RAG Advertisements Across Advertising Styles’ исследуется проблема автоматического выявления такой рекламы в ответах больших языковых моделей, с учетом разнообразия стилей рекламных объявлений. Показано, что классификаторы на уровне токенов демонстрируют высокую эффективность и устойчивость к изменениям рекламных стратегий, в то время как более простые модели оказываются хрупкими. Сможем ли мы создать эффективные и экономичные методы блокировки сгенерированной рекламы, обеспечивающие конфиденциальность и качество информации для пользователей?


В погоне за вниманием: LLM и невидимая реклама

В последнее время наблюдается стремительный рост использования больших языковых моделей (LLM) для автоматизированного создания контента различного формата. Эта тенденция открывает значительные возможности для интеграции онлайн-рекламы, поскольку LLM способны генерировать рекламные тексты, адаптированные под конкретный контекст и целевую аудиторию. В отличие от традиционных методов, LLM позволяют создавать рекламу, органично вплетенную в основной контент, что повышает ее эффективность и незаметность для пользователя. Растущая популярность LLM в сфере контент-маркетинга приводит к тому, что рекламные материалы, созданные с их помощью, все сложнее отличить от естественно сгенерированных текстов, что создает новые вызовы для платформ и пользователей.

Интеграция больших языковых моделей (LLM) в онлайн-рекламу создает серьезные трудности в различении рекламного контента от органических текстов. LLM способны генерировать тексты, неотличимые по стилю и содержанию от созданных человеком, что делает традиционные методы обнаружения рекламы, основанные на ключевых словах или явных маркерах, неэффективными. Тексты, созданные LLM, адаптируются к контексту и потребностям пользователя, органично встраивая рекламные сообщения в повествование. Это приводит к тому, что даже опытные пользователи испытывают сложности в определении того, является ли представленный контент редакционным материалом или замаскированной рекламой, что ставит под вопрос прозрачность и доверие к онлайн-информации.

Традиционные методы выявления рекламы, основанные на ключевых словах и шаблонных фразах, оказываются неэффективными при анализе текстов, сгенерированных большими языковыми моделями. Эти модели способны создавать контент, органично встраивающий рекламные сообщения в повествование, имитируя естественный стиль общения и адаптируясь к контексту запроса. В результате, отличить рекламный текст от информационного становится крайне затруднительно, поскольку отсутствует четкая граница между ними. Необходимость разработки принципиально новых подходов к обнаружению рекламы, учитывающих семантическую сложность и контекстуальную осведомленность LLM-генерируемого контента, становится всё более актуальной задачей для исследователей и разработчиков.

Иллюстрация демонстрирует, как поисковая система интегрирует рекламное объявление
Иллюстрация демонстрирует, как поисковая система интегрирует рекламное объявление «FUN Flights» в ответ на запрос пользователя о срочных поездках, демонстрируя вариации, обусловленные различными стилями рекламы.

Стили рекламного воздействия: от прямоты до маскировки

Рекламные кампании используют различные стили, варьирующиеся от прямых и явных промо-материалов до скрытых стратегий, органично интегрирующихся в контент. Явные форматы, такие как баннерная реклама и телереклама, недвусмысленно идентифицируются как рекламные сообщения. В отличие от них, скрытые форматы, например, спонсорский контент или продакт-плейсмент, маскируются под редакционный материал, стремясь воздействовать на аудиторию без немедленного осознания рекламного характера.

Рекламные стили различаются в зависимости от типа апелляции к аудитории. Рациональные аргументы акцентируют внимание на конкретных характеристиках продукта или услуги, предоставляя фактическую информацию и логические обоснования преимуществ. Эмоциональные апелляции, напротив, направлены на вызывание определенных чувств и ассоциаций, таких как радость, страх, ностальгия или доверие, с целью формирования позитивного отношения к рекламируемому объекту.

Генерируемая нативная реклама использует большие языковые модели (LLM) для создания рекламного контента, который намеренно имитирует стиль и формат органического, нерекламного контента. Этот подход предполагает, что LLM обучаются на больших объемах текстовых данных, чтобы воспроизводить структуру предложений, лексику и тон, характерные для статей, новостей или публикаций в социальных сетях.

Понимание различных стилей рекламных сообщений имеет решающее значение для разработки эффективных методов их обнаружения. Алгоритмы обнаружения рекламы должны учитывать как явные, прямолинейные рекламные тексты, так и более тонкие, замаскированные под органический контент, особенно в контексте контента, сгенерированного большими языковыми моделями (LLM). Эффективные методы обнаружения требуют анализа лингвистических характеристик, структуры текста и семантического содержания для выявления признаков, указывающих на рекламный характер сообщения, независимо от его стиля подачи.

Для создания скрытой рекламы используются рациональные обращения, в которых заполняются места-заполнители данными, представленными на рисунке 2.
Для создания скрытой рекламы используются рациональные обращения, в которых заполняются места-заполнители данными, представленными на рисунке 2.

Инструменты обнаружения: от SVM до ModernBERT

Для обнаружения рекламы в контенте, генерируемом большими языковыми моделями (LLM), используются различные методы машинного обучения. К ним относятся алгоритмы Support Vector Machines (SVM), которые эффективно разделяют данные, Random Forests, обеспечивающие высокую точность за счет ансамбля решающих деревьев, и Sentence Transformers, способные создавать векторные представления предложений для сравнения и классификации.

Модель ModernBERT, основанная на архитектуре Transformer, демонстрирует высокую эффективность в обнаружении рекламы в текстах, генерируемых большими языковыми моделями, благодаря возможности классификации на уровне отдельных токенов и распознаванию именованных сущностей. Техника BIO Tagging (Begin, Inside, Outside) используется для маркировки токенов, что позволяет модели точно идентифицировать начало, продолжение и отсутствие рекламных элементов в тексте.

Для обучения моделей обнаружения рекламы в контенте, генерируемом большими языковыми моделями (LLM), широко используется датасет WGNA 25. Этот датасет содержит размеченные примеры ответов LLM, в которых четко обозначены фрагменты, содержащие рекламный контент, и фрагменты, не содержащие его. Разметка выполнена на уровне токенов и сущностей, что позволяет моделям, таким как ModernBERT, эффективно обучаться и выявлять признаки рекламного текста, включая упоминания рекламодателей и связанных с ними объектов.

Использование токенизированных классификаторов, таких как ModernBERT, демонстрирует высокую эффективность в выявлении рекламного контента, генерируемого языковыми моделями. На тестовых наборах данных достигнут показатель F1-score до 0.988, что свидетельствует о высокой точности и полноте обнаружения рекламных вставок.

Эффективное обнаружение рекламного контента, генерируемого языковыми моделями, напрямую зависит от точной идентификации не только рекламного текста, но и самих рекламодателей, а также связанных с ними сущностей. Это включает в себя распознавание наименований брендов, продуктов и услуг, упоминаемых в рекламных вставках, а также выявление конкретных рекламных стратегий, таких как спонсорский контент или скрытая реклама.

Таблица демонстрирует обзор данных, представленных в наборе Webis Generated Native Ads 2025.
Таблица демонстрирует обзор данных, представленных в наборе Webis Generated Native Ads 2025.

Гонка вооружений: обход обнаружения и будущее ИИ-рекламы

Рекламодатели активно разрабатывают и применяют разнообразные методы обхода систем обнаружения рекламы, стремясь незаметно донести свои сообщения до целевой аудитории. Эти техники включают в себя маскировку рекламного контента под органический текст, использование синонимов и перефразировок для уклонения от ключевых слов, а также внедрение рекламы в нетрадиционные форматы, такие как вопросы или утверждения, имитирующие стиль общения пользователя с языковой моделью. Подобные стратегии направлены на то, чтобы обойти фильтры, основанные на простом сопоставлении с известными рекламными шаблонами, и сделать рекламу менее заметной для пользователя.

Постоянное противостояние между методами обнаружения рекламы и способами её маскировки формирует непрерывную «гонку вооружений». Рекламодатели, стремясь обойти детекторы, постоянно совершенствуют техники скрытой интеграции, что, в свою очередь, требует от разработчиков систем обнаружения всё более сложных и адаптивных алгоритмов.

Механизмы аукционов рекламы и выборка токенов оказывают существенное влияние на заметность и размещение рекламных материалов в ответах, генерируемых большими языковыми моделями. Этот процесс, определяемый сложными алгоритмами, может приводить к тому, что определенные рекламные объявления будут выделяться, а другие оставаться незамеченными, даже если они релевантны запросу пользователя.

Несмотря на впечатляющую эффективность ModernBERT в обнаружении рекламного контента, большинство существующих классификаторов демонстрируют существенное снижение точности при изменении стиля рекламы или используемой языковой модели. Это указывает на хрупкость текущих методов и подчеркивает необходимость разработки более устойчивых и адаптивных решений.

Перспективные исследования в области обнаружения рекламы в контенте, генерируемом большими языковыми моделями, должны быть сосредоточены на разработке устойчивых методов, способных противостоять постоянно меняющимся тактикам обхода обнаружения. Крайне важно детально изучить влияние алгоритмов распределения приоритетов — так называемого “Prominence Allocation” — на видимость рекламных материалов и обеспечить прозрачность этого процесса. Помимо технических аспектов, необходимо уделить пристальное внимание этическим нормам рекламы в контексте ИИ, чтобы гарантировать, что продвижение товаров и услуг осуществляется честным и непредвзятым образом.

Отношения шансов обнаружения рекламы (с 95% доверительным интервалом) показывают, как меняется вероятность обнаружения рекламы в новых тестовых наборах данных по сравнению с эталонным набором, при этом вертикальные чёрные линии указывают на отношение шансов, а цветные горизонтальные линии - на соответствующий доверительный интервал (ось X ограничена значением 3.0 для наглядности).
Отношения шансов обнаружения рекламы (с 95% доверительным интервалом) показывают, как меняется вероятность обнаружения рекламы в новых тестовых наборах данных по сравнению с эталонным набором, при этом вертикальные чёрные линии указывают на отношение шансов, а цветные горизонтальные линии — на соответствующий доверительный интервал (ось X ограничена значением 3.0 для наглядности).

Исследование показывает, что даже самые современные системы обнаружения рекламы, построенные на больших языковых моделях, не застрахованы от обхода. Авторы работы верно подмечают, что классификаторы, работающие на уровне отдельных токенов, демонстрируют большую устойчивость к изменениям в стиле подачи рекламного материала и используемой модели генерации. Это согласуется с давним наблюдением Дональда Кнута: «Прежде чем оптимизировать код, убедитесь, что он работает». В данном случае, прежде чем говорить о сложных архитектурах и «революционных» подходах к обнаружению рекламы, необходимо убедиться в надёжности базового уровня — токельной классификации. Попытки создать «идеальную» систему обнаружения, вероятно, обречены на провал, ведь, как известно, «если код выглядит идеально — значит, его никто не деплоил». Постоянная адаптация к новым уловкам рекламщиков — вот реальная задача.

Что дальше?

Представленная работа, как и большинство, лишь аккуратно приподнимает краешек занавеса над проблемой, которая, несомненно, станет ещё сложнее. Классификаторы на уровне токенов оказались устойчивее к изменениям стиля рекламных объявлений и даже к разным генеративным моделям — неплохо, но это лишь отсрочка неизбежного. Продакшен всегда найдёт способ обойти даже самые изощрённые алгоритмы. Удивительно, как быстро «революционные» методы становятся банальным техдолгом.

Поиск точного местоположения рекламного контента внутри сгенерированного текста остаётся болезненной точкой. Пока исследователи тратят силы на повышение точности классификации, рекламные стратегии эволюционируют, становясь всё более изощрёнными. В конечном итоге, всё новое — это старое, только с другим именем и теми же багами. Похоже, что задача обнаружения рекламы в текстах, сгенерированных большими языковыми моделями, обречена на вечную гонку вооружений.

Можно с уверенностью предположить, что будущее исследований лежит в области адаптивных моделей, способных обучаться на новых примерах рекламного контента в режиме реального времени. Однако, даже это не гарантирует успеха. Продакшен — лучший тестировщик, и он всегда найдёт слабое место. Пока всё работает — просто подожди.


Оригинал статьи: https://arxiv.org/pdf/2603.04925.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-06 23:01