Искусственный интеллект на службе рекламы: новый подход к автоматическим ставкам

Автор: Денис Аветисян

Исследователи представили инновационную модель, использующую возможности больших языковых моделей для интеллектуального управления ставками в онлайн-рекламе.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Иерархическая модель автоматического назначения ставок обучается в два этапа: сначала модуль LBM-Act осваивает языковое управление решениями посредством двойного механизма встраивания, объединяющего различные модальности, а затем модуль LBM-Think подвергается тонкой настройке с помощью обучения с подкреплением и оптимизации групповой относительной Q-политики.

Иерархическая модель автоматических ставок (LBM) на основе больших языковых моделей и обучения с подкреплением вне сети (GQPO) демонстрирует улучшенные результаты и обобщающую способность.

Растущая конкуренция на аукционах онлайн-рекламы требует автоматизации стратегий назначения ставок, однако существующие методы часто демонстрируют непредсказуемое поведение из-за ограниченности данных и непрозрачности обучения. В работе ‘LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting’ предложена иерархическая модель автоматического назначения ставок (LBM), использующая большие языковые модели (LLM) для рассуждений и генерации действий, а также новый метод обучения с подкреплением в офлайн-режиме (GQPO) для повышения производительности и обобщающей способности. Данный подход позволяет эффективно объединять языковые и числовые данные, минимизируя «галлюцинации» LLM и улучшая принятие решений в динамичной рекламной среде. Способна ли предложенная архитектура LBM стать основой для нового поколения интеллектуальных систем управления рекламными кампаниями?

Автоматизация ставок: вызовы и ограничения

Традиционные автоматизированные системы ставок зачастую оказываются неэффективными в условиях сложной динамики аукционов, требуя постоянной ручной настройки для достижения оптимальных результатов. Эти системы, как правило, полагаются на упрощенные модели и не способны адекватно реагировать на изменения в поведении участников, внезапные скачки цен или появление новых стратегий. В результате, для поддержания конкурентоспособности требуется постоянный мониторинг и вмешательство оператора, что значительно увеличивает трудозатраты и снижает эффективность автоматизации. Постоянная ручная калибровка параметров ставок, основанная на эмпирических данных и интуиции, является признаком неспособности системы самостоятельно адаптироваться к изменчивым условиям аукционной среды.

Эффективное участие в аукционах требует не просто анализа количественных данных, таких как текущая цена и время до окончания торгов, но и глубокого понимания контекстуальной информации. Традиционные алгоритмы, основанные исключительно на числовых показателях, часто упускают из виду важные факторы, например, репутацию продавца, описание товара, сезонность спроса или даже текущие экономические тенденции. Понимание этих нюансов позволяет более точно прогнозировать поведение других участников и определять оптимальную ставку, что существенно повышает вероятность успешной покупки. Сложность заключается в том, что контекстуальная информация часто представлена в неструктурированном виде — текстовых описаниях, изображениях, отзывах — и требует применения методов машинного обучения и обработки естественного языка для извлечения полезных сведений, что представляет собой серьезную задачу для существующих систем автоматического назначения ставок.

Модель LBM использует цепочку рассуждений (CoT), сгенерированную на предыдущем шаге <span class="katex-eq" data-katex-display="false"> \Delta t </span>, и числовую информацию для определения оптимального параметра ставки на текущем шаге. — Модель LBM использует цепочку рассуждений (CoT), сгенерированную на предыдущем шаге $\Delta t$ , и числовую информацию для определения оптимального параметра ставки на текущем шаге.

Иерархическая модель интеллектуальных ставок

Предлагаемая модель использует возможности больших языковых моделей (LLM) для анализа контекста аукциона и формирования стратегических выводов. LLM обрабатывают данные об аукционе, включая информацию об участниках, текущие ставки, оставшееся время и характеристики выставляемого лота. На основе этого анализа модель способна выявлять закономерности, оценивать вероятности успеха и прогнозировать поведение других участников, что позволяет генерировать обоснованные рекомендации по формированию ставок и принятию решений в реальном времени. Такой подход позволяет автоматизировать процесс участия в аукционах и повысить эффективность стратегий, основанных на данных.

Иерархическая структура модели предполагает разделение процесса назначения ставок на два основных этапа: высокоуровневое рассуждение (LBM-Think) и генерацию действий на низком уровне (LBM-Act). LBM-Think отвечает за анализ контекста аукциона и формирование стратегии, в то время как LBM-Act преобразует эту стратегию в конкретные предложения ставок. Такое разделение позволяет повысить эффективность за счет оптимизации каждого этапа и улучшить контроль над процессом назначения ставок, обеспечивая более точное и обоснованное принятие решений.

Модель использует обучение с подкреплением в автономном режиме (Offline Reinforcement Learning) для формирования устойчивой стратегии участия в аукционах. Этот подход позволяет обучать модель на исторических данных об аукционах, избегая необходимости взаимодействия с реальными аукционами в процессе обучения. Использование исторических данных обеспечивает стабильность и надежность стратегии, поскольку модель не подвергается влиянию случайных факторов, возникающих в реальном времени. Обучение происходит путем анализа данных о прошлых аукционах, включая ставки, результаты и контекст, что позволяет модели выявлять оптимальные стратегии для максимизации выигрыша или достижения других заданных целей.

Обучение языковой модели с помощью GRPO привело к тому, что после примерно 150 шагов она начала выдавать только действия, игнорируя этап пошагового рассуждения.

Глубокий анализ: рассуждения и генерация действий

LBM-Think использует метод «Цепочка рассуждений» (Chain-of-Thought Reasoning) для генерации стратегических ставок, обеспечивая прослеживаемость логики принятия решений. Этот подход заключается в том, что модель последовательно формулирует промежуточные шаги рассуждений, предшествующие финальной ставке, что позволяет понять, какие факторы повлияли на выбор. Такой механизм не только повышает прозрачность процесса, но и предоставляет возможность для внешнего контроля и корректировки стратегии, поскольку каждый шаг рассуждений доступен для анализа и модификации. В результате, пользователи получают не просто ставку, но и объяснение, почему она была сделана, что способствует более эффективному управлению и оптимизации.

Алгоритм Group Relative-Q Policy Optimization используется для тонкой настройки LBM-Think, что позволяет максимизировать его производительность на основе анализа исторических данных аукционов. Данный алгоритм оптимизирует стратегию ставок, учитывая относительные значения Q-функций для групп аукционов, что позволяет более эффективно адаптироваться к динамике рынка и повышать вероятность выигрыша. Оптимизация происходит путем итеративного улучшения политики на основе собранных данных, позволяя LBM-Think эффективно учиться на прошлых результатах и улучшать свою стратегию в будущем.

LBM-Act использует механизм двойного внедрения (Dual Embedding Mechanism) для эффективного объединения лингвистического обоснования стратегии и численных параметров ставки. Этот механизм позволяет моделировать взаимосвязь между текстовым описанием хода и конкретными значениями, используемыми для формирования ставки. В процессе обучения, система оптимизирует параметры внедрения для максимизации ключевых метрик эффективности, таких как прибыль и частота побед. Экспериментальные результаты демонстрируют, что LBM-Act превосходит базовые методы в задачах аукциона, обеспечивая более высокую производительность и улучшенное принятие решений.

Кривая обучения показывает, что языковое управление значительно повышает эффективность обучения модели, что подтверждает преимущества подхода LLM-DT и LBM-Act.

Проверка и перспективы развития

Для подтверждения эффективности разработанной модели, её производительность была тщательно протестирована на общедоступном наборе данных AuctionNet, предназначенном для оценки алгоритмов участия в рекламных аукционах. Результаты валидации продемонстрировали существенное улучшение ключевых показателей эффективности, включая снижение стоимости привлечения клиента (CPA), более эффективное использование бюджета и увеличение количества конверсий. Модель последовательно превзошла результаты, полученные с использованием базовых методов, что подтверждает её способность к адаптации и оптимизации стратегий назначения ставок в сложных аукционных сценариях. Данное сравнение с эталонными алгоритмами позволяет утверждать о практической значимости и потенциале предложенного подхода для повышения эффективности рекламных кампаний.

Применение генеративных методов, в частности, архитектуры Decision Transformer, значительно расширяет возможности модели в освоении и адаптации к сложным сценариям аукционов. Данный подход позволяет не просто прогнозировать оптимальные ставки, но и генерировать последовательности действий, основанные на изучении успешных стратегий из исторических данных. В отличие от традиционных методов, Decision Transformer рассматривает задачу управления ставками как задачу последовательного принятия решений, что позволяет учитывать долгосрочные последствия каждого действия и оптимизировать стратегию в целом. Это приводит к более эффективному использованию бюджета, повышению коэффициента CPA и увеличению количества конверсий, поскольку модель способна учитывать контекст аукциона и адаптироваться к меняющимся условиям в режиме, приближенном к человеческому.

Результаты исследования демонстрируют значительное улучшение ключевых показателей эффективности предложенной модели LBM по сравнению с базовыми подходами. В частности, наблюдается снижение коэффициента CPA (cost per acquisition), что свидетельствует о более эффективном привлечении клиентов. Кроме того, отмечается более рациональное использование рекламного бюджета, позволяющее достигать большего количества конверсий при тех же затратах. Данные улучшения подтверждают эффективность предложенного подхода к оптимизации ставок в рекламных аукционах и его потенциал для повышения рентабельности рекламных кампаний.

В дальнейшем планируется внедрение методов онлайн-обучения для обеспечения адаптации в режиме реального времени и более точной оптимизации стратегий назначения ставок. Такой подход позволит модели динамически реагировать на изменяющиеся условия аукциона, учитывать поведение конкурентов и индивидуальные характеристики пользователей, что приведет к повышению эффективности рекламных кампаний. Интеграция онлайн-обучения позволит избежать задержек, связанных с периодической переподготовкой модели, и обеспечит постоянную оптимизацию стратегий, максимизируя конверсию и рентабельность инвестиций в рекламу. Это откроет возможности для адаптации к новым трендам и изменениям в поведении пользователей, делая систему более гибкой и эффективной в долгосрочной перспективе.

Анализ соотношения CPA по 1000 случайным выборкам показывает, что превышение единицы указывает на нарушение ограничения CPA и вероятное снижение параметра ставки <span class="katex-eq" data-katex-display="false">\Delta a < 0</span>, в то время как значения меньше единицы предполагают его увеличение <span class="katex-eq" data-katex-display="false">\Delta a > 0</span>, причем эта зависимость четко прослеживается в LLM, дообученных с использованием GQPO, но не наблюдается в DT и предварительно обученных LLM. — Анализ соотношения CPA по 1000 случайным выборкам показывает, что превышение единицы указывает на нарушение ограничения CPA и вероятное снижение параметра ставки $\Delta a < 0$ , в то время как значения меньше единицы предполагают его увеличение $\Delta a > 0$ , причем эта зависимость четко прослеживается в LLM, дообученных с использованием GQPO, но не наблюдается в DT и предварительно обученных LLM.

Представленная работа демонстрирует, что даже самые передовые системы, такие как большие языковые модели, не избегают влияния времени и необходимости адаптации. Использование иерархической модели LBM, сочетающей рассуждения и действия, в контексте онлайн-рекламы, является попыткой продлить «жизнь» системы, оптимизируя её производительность и обобщающую способность. Как заметил Винтон Серф: «Интернет — это не технология, это способ мышления». Эта фраза отражает суть исследования: система, подобно интернету, требует постоянного развития и обновления, чтобы оставаться актуальной и эффективной. Применение алгоритма GQPO для обучения с подкреплением вне сети, подчеркивает стремление к созданию устойчивой системы, способной адаптироваться к меняющимся условиям и избегать стагнации. Стабильность, как показывает исследование, не является самоцелью, а лишь временной точкой в постоянном потоке изменений.

Куда же дальше?

Представленная работа, несомненно, демонстрирует потенциал иерархических моделей, использующих большие языковые модели для автоматического назначения ставок. Однако, за кажущейся эффективностью скрывается неизбежная энтропия. Каждая система, даже самая продуманная, подвержена старению, и вопрос лишь в том, как долго она сможет поддерживать иллюзию оптимальности в постоянно меняющейся среде онлайн-рекламы. Развитие алгоритмов, как и эрозия, неумолимо, и технический долг здесь накапливается быстрее, чем успевают возникать новые решения.

Очевидно, что текущие подходы к обучению с подкреплением вне сети, несмотря на свою элегантность, остаются лишь частичным ответом на проблему обобщения. Настоящим вызовом является создание моделей, способных не просто воспроизводить успешные стратегии в прошлом, но и адаптироваться к непредсказуемым изменениям в поведении пользователей и рыночной конъюнктуре. Аптайм — это редкая фаза гармонии во времени, а не гарантированное состояние.

Будущие исследования, вероятно, будут сосредоточены на интеграции моделей, подобных LBM, с системами активного обучения и непрерывной адаптации. Вероятно, потребуются новые метрики, выходящие за рамки традиционных показателей эффективности, чтобы адекватно оценить устойчивость и долговечность таких систем в долгосрочной перспективе. В конечном счете, вопрос заключается не в создании идеального алгоритма, а в принятии неизбежной энтропии и разработке систем, способных достойно стареть.

Оригинал статьи: https://arxiv.org/pdf/2603.05134.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-07 08:49