Автоматические ставки: новый подход к планированию и оптимизации

Автор: Денис Аветисян

Исследователи предлагают инновационную систему SEGB, объединяющую генеративные модели и обучение с подкреплением для повышения эффективности рекламных кампаний.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

В рамках разработанного фреймворка SEGB, состоящего из этапов планирования, генерации действий и оффлайн-эволюции, предсказуемое состояние будущего <span class="katex-eq" data-katex-display="false"> s^{\prime}\_{t+1} </span> формируется LAD-моделью, обуславливая генерацию действия <span class="katex-eq" data-katex-display="false"> a^{\prime}\_{t} </span> с учетом этого состояния, после чего политика совершенствуется посредством GRPO с использованием замороженной Критики и Референсной модели исключительно в процессе оффлайн-обучения, тогда как при онлайн-инференсе используется эффективный конвейер, объединяющий только этапы 1 и 2. — В рамках разработанного фреймворка SEGB, состоящего из этапов планирования, генерации действий и оффлайн-эволюции, предсказуемое состояние будущего $s^{\prime}\_{t+1}$ формируется LAD-моделью, обуславливая генерацию действия $a^{\prime}\_{t}$ с учетом этого состояния, после чего политика совершенствуется посредством GRPO с использованием замороженной Критики и Референсной модели исключительно в процессе оффлайн-обучения, тогда как при онлайн-инференсе используется эффективный конвейер, объединяющий только этапы 1 и 2.

Представлен фреймворк SEGB, сочетающий локально авторегрессивную диффузионную модель, decision transformer и групповую относительную оптимизацию политики для достижения превосходных результатов в реальных рекламных средах.

Автоматизированные стратегии назначения ставок в онлайн-рекламе часто сталкиваются с трудностями адаптации к динамично меняющимся рыночным условиям и требуют постоянной внешней оптимизации. В данной работе представлена система ‘SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion’ — новый подход к автоматическому назначению ставок, основанный на автономном обучении с подкреплением и использующий локально авторегрессионную диффузионную модель для планирования и принятия решений. Предложенный фреймворк демонстрирует значительное улучшение показателей в сравнении с существующими решениями, обеспечивая прирост целевой стоимости на 10.19% в реальных A/B тестах. Возможно ли дальнейшее развитие SEGB для интеграции с более сложными моделями прогнозирования и адаптации к еще более непредсказуемым рыночным условиям?

Постоянно Меняющиеся Пески Рекламных Аукционов

Традиционные системы автоматического назначения ставок в рекламных аукционах сталкиваются с серьезными трудностями при работе в динамичной среде реального времени. Они зачастую не способны эффективно адаптироваться к постоянно меняющимся условиям рынка, таким как колебания спроса, действия конкурентов и изменения в поведении пользователей. Причина кроется в их статической природе: алгоритмы, обученные на исторических данных, могут оказаться неэффективными при столкновении с новыми, непредсказуемыми ситуациями. Это приводит к упущенным возможностям для показа рекламы по оптимальной цене и, как следствие, к снижению общей эффективности рекламных кампаний. Постоянная необходимость оперативного реагирования на меняющиеся факторы делает задачу адаптации ставок особенно сложной и актуальной для современных рекламных платформ.

Существенное ограничение традиционных систем автоматического назначения ставок заключается в их неспособности точно предсказывать будущие состояния рекламных аукционов и, как следствие, оптимизировать ставки в соответствии с меняющейся ситуацией. В динамичной среде, где конкуренция и стоимость кликов постоянно колеблется, статичные модели оказываются неэффективными, поскольку не учитывают прогнозируемые изменения в поведении пользователей и действиях конкурентов. Это приводит к тому, что система либо переплачивает за показы, теряя потенциальную прибыль, либо недооценивает ценность, упуская возможности для привлечения целевой аудитории. В результате, наблюдается снижение общей эффективности рекламной кампании и, как следствие, неоптимальное использование рекламного бюджета.

Существенное препятствие для эффективной обобщающей способности моделей автоматического назначения ставок заключается в неизбежном расхождении распределений данных, используемых для обучения, и реальных аукционов в динамичной среде. Обучение на исторических данных, отражающих прошлые рыночные условия, может оказаться неадекватным при столкновении с новыми тенденциями, изменением поведения пользователей или появлением новых конкурентов. Это несоответствие, известное как “сдвиг распределений”, приводит к тому, что модель, хорошо работавшая на обучающей выборке, демонстрирует сниженную производительность в реальных аукционах. Следовательно, для достижения стабильно высоких результатов необходимы методы, позволяющие моделям адаптироваться к изменяющимся условиям и эффективно использовать информацию, полученную в процессе работы, для корректировки стратегии назначения ставок.

Саморазвивающаяся Генеративная Ставка: Новый Подход

Саморазвивающаяся генеративная ставка (Self-Evolved Generative Bidding) представляет собой синергетический подход к автоматическому управлению ставками, объединяющий в себе преимущества нескольких передовых технологий. Данная система не просто реагирует на текущую ситуацию, но и активно прогнозирует будущие состояния, используя генеративные модели для обеспечения согласованности и высокой точности предсказаний. В результате, достигается превосходная производительность в управлении ставками, поскольку система способна учитывать долгосрочные последствия принимаемых решений и оптимизировать стратегию в динамичной среде. Сочетание этих технологий позволяет значительно повысить эффективность по сравнению с традиционными методами автоматического назначения ставок.

В основе подхода Self-Evolved Generative Bidding лежит Next-State-Aware Decision Transformer — расширение стандартного Decision Transformer, которое явно учитывает информацию о будущих состояниях при принятии решений. В отличие от традиционных моделей, которые прогнозируют действия исключительно на основе текущего состояния и истории, Next-State-Aware Decision Transformer моделирует вероятные будущие состояния системы и использует эту информацию для оптимизации стратегии ставок. Это позволяет системе не только реагировать на текущую ситуацию, но и предвидеть ее развитие, что приводит к более эффективному управлению бюджетом и повышению вероятности достижения желаемых результатов. Интеграция информации о будущем состоянии осуществляется посредством добавления соответствующих признаков в процесс обучения модели, что позволяет ей формировать более долгосрочные и обоснованные решения.

Локальная авторегрессионная диффузия, используемая в рамках данной системы, представляет собой генеративную модель, предназначенную для повышения точности прогнозирования будущих состояний. В отличие от стандартных генеративных моделей, она обеспечивает причинную согласованность, то есть предсказанные состояния учитывают последовательность событий и их взаимосвязи. Это достигается за счет авторегрессионного подхода, при котором каждое последующее состояние генерируется на основе предыдущих, и локального характера модели, фокусирующегося на непосредственных зависимостях между состояниями. Высокая точность (fidelity) предсказаний, обеспечиваемая данной моделью, критически важна для эффективного принятия решений в процессе автоматического назначения ставок.

Обучение в Автономном Режиме: Надежность и Стабильность

В основе системы лежит обучение с подкреплением в неактивном режиме (Offline Reinforcement Learning), использующее статические наборы данных для тренировки политики. Такой подход позволяет избежать сложностей, связанных с онлайн-исследованием (exploration) в реальных аукционах рекламного инвентаря, где активное тестирование стратегий может приводить к неоптимальным результатам и финансовым потерям. Вместо этого, модель обучается на исторических данных, что обеспечивает стабильность и предсказуемость поведения политики, а также позволяет использовать большие объемы информации, собранной в прошлом, для оптимизации стратегий назначения ставок.

Для тонкой настройки политики и выявления превосходящих стратегий на основе исторических данных используется Group Relative Policy Optimization (GRPO). В отличие от стандартных алгоритмов обучения с подкреплением, GRPO фокусируется на относительных улучшениях в группах данных, что позволяет более эффективно использовать статические наборы данных, собранные в реальных аукционах. Этот подход позволяет избежать проблем, связанных с экстраполяцией за пределы данных, и повышает стабильность обучения, особенно в условиях ограниченного объема данных или высокой волатильности аукционной среды. GRPO оптимизирует политику, сравнивая ее производительность с производительностью других политик в пределах каждой группы данных, что приводит к более надежным и эффективным стратегиям назначения ставок.

Внедрение Expectile Regression позволяет повысить устойчивость модели и снизить влияние выбросов в обучающих данных, что критически важно для надежных решений о ставках в аукционах. В отличие от стандартной регрессии, минимизирующей среднюю квадратичную ошибку, Expectile Regression фокусируется на минимизации ошибки для конкретного квантиля распределения целевой переменной. Это позволяет модели более эффективно обрабатывать аномальные данные, не искажая общую стратегию назначения ставок и обеспечивая стабильную производительность даже в условиях нестабильных данных об аукционах. Использование Expectile Regression способствует более точной оценке риска и снижению вероятности принятия неоптимальных решений, связанных с экстремальными значениями в исторических данных.

Проведенная оценка производительности на наборе данных AuctionNet показала, что разработанный фреймворк достиг передовых результатов, превзойдя базовые модели на величину до 12.25% как на стандартных, так и на разреженных бенчмарках. В частности, в ходе крупномасштабного онлайн A/B тестирования зафиксировано увеличение целевой стоимости на 10.19%, что подтверждает значимую коммерческую ценность и эффективность предложенного подхода в реальных условиях проведения аукционов.

Взгляд в Будущее: Адаптивные и Интеллектуальные Системы Назначения Ставок

Система способна адаптироваться к меняющейся рыночной конъюнктуре и оптимизировать ставки в режиме реального времени благодаря точному прогнозированию будущих состояний и применению обучения с подкреплением в автономном режиме. Используя накопленные данные, алгоритм предсказывает вероятные изменения в аукционной среде, такие как колебания конкуренции или изменения в поведении пользователей. Это позволяет системе не просто реагировать на текущую ситуацию, а предвидеть ее развитие и заблаговременно корректировать ставки для достижения оптимальных результатов рекламной кампании. Вместо пассивного следования за рынком, система активно формирует стратегию, максимизируя эффективность рекламного бюджета и повышая рентабельность инвестиций.

Внедрение метрики “Return-to-Go” в архитектуру Next-State-Aware Decision Transformer обеспечивает согласование стратегии ставок с долгосрочными целями рекламной кампании. Эта метрика, по сути, оценивает ожидаемую будущую выгоду от достижения определенного состояния кампании, позволяя системе прогнозировать не только непосредственный эффект от каждой ставки, но и ее вклад в общее продвижение к поставленным задачам. Таким образом, алгоритм способен формировать ставки, ориентированные не только на краткосрочную оптимизацию, но и на максимизацию совокупного результата кампании, учитывая ее продолжительность и желаемые показатели. Это существенно повышает эффективность системы, позволяя ей избегать локальных оптимумов и стремиться к наиболее выгодной стратегии в долгосрочной перспективе.

Для обеспечения достоверности прогнозов и возможности их практического применения в динамичной среде онлайн-рекламы, система использует механизм причинной согласованности. В основе данного механизма лежит локальная авторегрессионная диффузия, позволяющая генерировать реалистичные и правдоподобные сценарии развития событий. Этот подход гарантирует, что предсказанные будущие состояния рынка не являются случайными отклонениями, а логически вытекают из текущей ситуации и прошлых данных. Благодаря этому, система способна формировать не просто прогнозы, а именно обоснованные представления о будущем, что критически важно для принятия эффективных решений в процессе назначения ставок и оптимизации рекламных кампаний. Такой подход позволяет избежать неадекватных или невыполнимых предсказаний, повышая надежность и результативность всей системы.

Система демонстрирует впечатляющую производительность, обеспечивая задержку на уровне P99 менее 0,0375 секунды. Это означает, что 99% запросов обрабатываются быстрее, чем за 37,5 миллисекунд, что соответствует и даже превосходит критический порог в 100 миллисекунд, необходимый для функционирования в динамичной среде онлайн-аукционов. Данный показатель подтверждает практическую применимость разработанного фреймворка в реальных рекламных кампаниях и открывает возможности для создания адаптивных и интеллектуальных систем назначения ставок, способных значительно повысить эффективность рекламных инвестиций и оптимизировать результаты в режиме реального времени.

Работа над SEGB напоминает попытку приручить хаос. Автоматическое назначение ставок, особенно в условиях offline обучения, — это всегда баланс между желаемым результатом и непредсказуемостью реальных данных. Эта система, с её комбинацией диффузионных моделей и оптимизации групповых политик, кажется элегантным решением, но, как известно, любой «революционный» подход со временем превращается в техдолг. Тим Бернерс-Ли однажды сказал: «Веб никогда не был разработан как безопасная система». Это отражает суть любой сложной системы: идеалы разработки сталкиваются с суровой реальностью эксплуатации. SEGB, вероятно, тоже потребует постоянного внимания и доработки, чтобы не превратиться в очередное «воспоминание о лучших временах».

Что дальше?

Представленный SEGB, как и любая система автоматического назначения ставок, неизбежно столкнётся с реальностью рекламных экосистем. Элегантное сочетание диффузионных моделей и трансформеров — это, конечно, хорошо, но рано или поздно, кто-нибудь найдёт способ сломать эту красоту. Все эти обещания “самовосстановления” — лишь признак того, что система ещё недостаточно долго работала в продакшене. Будем реалистами: документация к подобным алгоритмам — это форма коллективного самообмана, а если баг воспроизводится — значит, у нас стабильная система, просто все остальные не могут повторить условия.

Следующим шагом, вероятно, станет попытка встроить в SEGB хоть какую-то форму причинно-следственного анализа. Сейчас, судя по всему, система просто оптимизирует ставки, не понимая, почему они работают. Но добавление причинности — это всегда усложнение, которое может легко превратиться в кошмар поддержки. И, конечно, кто-нибудь обязательно попытается применить SEGB к задачам, для которых он совершенно не предназначен, а потом удивится, что ничего не работает.

В конечном итоге, всё это лишь очередной шаг в бесконечном цикле. Новая технология, оптимизация, взлом, исправление, новая технология. И так до бесконечности. Впрочем, это и есть суть прогресса, не так ли? Просто нужно помнить, что каждая “революционная” технология завтра станет техдолгом.

Оригинал статьи: https://arxiv.org/pdf/2602.22226.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-27 20:50