Ранжирование рекламы: новый подход к оптимизации

Автор: Денис Аветисян

Исследователи предлагают инновационный метод повышения эффективности рекламных фидов за счет генеративного переранжирования с учетом ограничений.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Двухэтапная система генеративного вывода, учитывающая ограничения, сначала выполняет ограниченную вставку в естественный список контента и выбирает наиболее перспективного кандидата на основе модели вознаграждения, а затем осуществляет ограниченное генеративное декодирование с использованием большого набора кандидатов, перечисляя осуществимые последовательности (списки с одним объявлением, с двумя объявлениями или без них) в соответствии с правилами ограничений; последующая обрезка вознаграждений, учитывающая ограничения, отсеивает невозможные или неоптимальные последовательности, а финальный список выбирается путем максимизации вознаграждения.

Предложена модель Constraint-Aware Generative Re-ranking (CGR), преобразующая задачу оптимизации в процесс авторегрессивного декодирования для улучшения производительности и снижения задержки.

Оптимизация ранжирования в рекламных лентах представляет собой сложную комбинаторную задачу, требующую одновременного максимизации дохода платформы и сохранения пользовательского опыта. В данной работе, посвященной ‘Constraint-Aware Generative Re-ranking for Multi-Objective Optimization in Advertising Feeds’, предложен новый подход, преобразующий задачу ограниченной оптимизации в процесс ограниченного нейронного декодирования. Ключевым нововведением является объединение генерации последовательностей и оценки вознаграждения в единую нейронную сеть, а также метод отсечения вознаграждения с учетом ограничений. Способен ли этот подход обеспечить эффективное нейронное решение для оптимизации списков с учетом ограничений и при этом удовлетворить строгим требованиям к задержке?

Вызов Эффективного Ранжирования: За гранью Поверхностных Метрик

Современные рекомендательные системы в значительной степени полагаются на алгоритмы ранжирования для предоставления релевантного контента, однако стандартные методы зачастую испытывают трудности при работе с комплексными, многогранными задачами. Традиционные подходы, ориентированные на оптимизацию отдельных показателей, таких как частота кликов, не учитывают широкий спектр важных факторов, включая разнообразие предлагаемого контента, справедливость рекомендаций и долгосрочную удовлетворенность пользователя. В результате, несмотря на кажущуюся эффективность, существующие алгоритмы могут приводить к формированию неоптимального пользовательского опыта, ограничивая возможности для открытия нового и релевантного контента, а также игнорируя потенциальные этические аспекты ранжирования.

Оптимизация исключительно по показателю кликабельности (CTR) в современных рекомендательных системах часто приводит к неоптимальному пользовательскому опыту. Хотя высокий CTR и кажется привлекательным показателем эффективности, он не учитывает важные аспекты, такие как разнообразие предлагаемого контента, справедливость рекомендаций для различных групп пользователей и долгосрочную удовлетворенность. Системы, ориентированные только на максимизацию кликов, могут создавать “пузыри фильтров”, предлагая пользователям лишь однотипный контент, игнорируя их потенциальные интересы и ограничивая доступ к новой информации. Кроме того, такой подход может привести к предвзятости алгоритмов, когда определенные типы контента или пользователи получают несправедливое преимущество, а также к краткосрочной оптимизации, игнорирующей долгосрочные потребности и предпочтения пользователя. В результате, несмотря на высокий CTR, общая удовлетворенность и лояльность пользователя могут снижаться, что негативно сказывается на эффективности системы в долгосрочной перспективе.

Традиционные методы ранжирования, применяемые в современных рекомендательных системах, зачастую рассматривают задачу как оценку отдельных элементов или пар элементов, игнорируя целостность и взаимосвязь всего сформированного списка. Такой подход, концентрирующийся на локальных сравнениях, не позволяет учесть глобальные характеристики ранжированного списка, такие как разнообразие предлагаемого контента, его соответствие долгосрочным интересам пользователя и общая согласованность. В результате, алгоритмы могут оптимизировать показатели, связанные с отдельными элементами, но упускать из виду более важные аспекты, определяющие удовлетворенность пользователя и эффективность системы в целом. Недооценка взаимосвязей внутри списка приводит к формированию ранжирований, которые могут быть локально оптимальными, но не обеспечивают наилучшего пользовательского опыта в контексте всей выдачи.

Генеративное Переранжирование: Новый Взгляд на Порядок

Перефразирование ранжирования с учетом ограничений представляет собой новую структуру, преобразующую задачу ранжирования в ограниченное авторегрессионное декодирование — мощную технику, заимствованную из генерации последовательностей. Вместо традиционных методов, оценивающих существующие результаты, данный подход рассматривает ранжирование как процесс генерации, где элементы списка формируются последовательно, основываясь на предыдущих элементах и заданных ограничениях. Авторегрессионное декодирование позволяет модели предсказывать следующий элемент в списке, учитывая контекст предыдущих элементов и соблюдая заданные условия, такие как разнообразие или соответствие определенным критериям. Ограниченность процесса означает, что генерация списка прекращается при достижении заданного размера или при выполнении других заранее определенных условий, обеспечивая контролируемый и предсказуемый результат.

Представление задачи ранжирования как генеративного процесса позволяет осуществлять прямой контроль над характеристиками формируемого списка результатов. Традиционные методы ранжирования, как правило, оптимизируют функцию оценки для существующего набора данных, что ограничивает возможность явного управления такими свойствами, как разнообразие, новизна или соответствие определенным критериям. В отличие от этого, генеративный подход позволяет задавать ограничения и предпочтения непосредственно в процессе генерации ранжированного списка, обеспечивая более гибкое и целенаправленное формирование результатов поиска и рекомендаций.

Метод Constraint-Aware Generative Re-ranking использует потоковые генеративные модели (flow-based generative models) для изучения распределения данных, лежащего в основе ранжируемых объектов. Эти модели позволяют эффективно генерировать высококачественные ранжированные списки, удовлетворяющие заданным ограничениям, таким как количество элементов или определенные критерии релевантности. В отличие от дискретных методов переранжировки, потоковые модели обеспечивают возможность точного вычисления вероятности сгенерированного списка, что позволяет оптимизировать процесс генерации и получать более стабильные и предсказуемые результаты. Обучение модели происходит на основе данных о предпочтениях пользователей или экспертных оценок, что позволяет ей адаптироваться к конкретной задаче ранжирования и генерировать списки, максимально соответствующие ожиданиям пользователей.

Архитектурные Инновации: Эффективность и Сложность

Архитектура Constraint-Aware Generative Re-ranking включает в себя несколько ключевых компонентов, направленных на повышение эффективности и моделирование сложных взаимосвязей. Модель использует Mixture-of-Experts (MoE) для распределения нагрузки и специализации отдельных экспертов по разным аспектам задачи ранжирования. Hierarchical Attention позволяет модели фокусироваться на наиболее релевантных частях входных данных на разных уровнях абстракции, а Local Self-Attention оптимизирует процесс вычисления внимания, сосредотачиваясь на локальных контекстах и снижая вычислительные затраты. Комбинация этих компонентов позволяет эффективно обрабатывать большие объемы данных и генерировать высококачественные отранжированные списки.

Метод маскированной передачи тензоров (Masked Tensor Propagation) значительно ускоряет процесс декодирования в задачах ранжирования благодаря эффективной обработке разреженных данных. Разреженность является типичной характеристикой наборов данных для ранжирования, где большинство элементов в векторах признаков имеют значение ноль. Этот метод позволяет исключить ненужные вычисления, связанные с нулевыми значениями, что приводит к снижению вычислительной нагрузки и ускорению процесса декодирования. Реализация включает в себя маскирование нулевых элементов в тензорах признаков и распространение только ненулевых значений через слои нейронной сети, что оптимизирует использование памяти и повышает производительность.

Прогрессивное поэтапное извлечение (Progressive Layered Extraction) представляет собой архитектурный подход, направленный на эффективное объединение информации, полученной на различных уровнях нейронной сети. Вместо использования только выходных данных последнего слоя, данный метод последовательно агрегирует признаки, извлеченные из каждого слоя, начиная с нижних уровней и заканчивая верхними. Это позволяет модели учитывать как низкоуровневые детали, так и высокоуровневые абстракции, что приводит к более точному и качественному построению ранжированных списков. Реализация предполагает последовательное объединение векторов признаков, полученных с каждого слоя, с использованием взвешенных сумм или конкатенации, обеспечивая тем самым плавную интеграцию информации и улучшение общей производительности модели.

Валидация и Производительность на Стандартных Наборах Данных

Предложенный фреймворк был всесторонне протестирован на стандартных наборах данных для ранжирования, включая Yahoo! LETOR, Microsoft 10K, Avito, ML1M и KR1K. Оценка проводилась с целью демонстрации стабильно высоких результатов на различных типах данных и задачах ранжирования. Использование этих наборов данных позволило провести объективное сравнение с существующими методами и подтвердить эффективность предложенного подхода в различных сценариях, от информационного поиска до рекомендательных систем и рекламы.

Экспериментальные результаты демонстрируют, что предложенный метод Constraint-Aware Generative Re-ranking превосходит существующие передовые методы в задачах переранжирования. На стандартных бенчмарках LETOR-типа наблюдается прирост показателя NDCG@10 до 2-3%. По сравнению с другими генеративными моделями, предложенный подход обеспечивает улучшение на 1-2% по аналогичному метрику. Данные результаты подтверждают эффективность предложенного подхода в повышении качества ранжирования.

В ходе тестирования на промышленном наборе данных для рекламных объявлений, предложенный фреймворк продемонстрировал увеличение показателя RPM (Revenue Per Mille) на 11% и CTR (Click-Through Rate) на 7%. При этом, система строго соблюдала установленные ограничения на рекламные объявления и обеспечила снижение задержки вывода (inference latency) более чем на 85% по сравнению с действующей в производстве системой Generator-Evaluator. Данные результаты подтверждают эффективность предложенного подхода в реальных условиях эксплуатации и его способность оптимизировать ключевые метрики рекламной платформы.

Перспективы Развития: К Интеллектуальным Рекомендациям

Будущие исследования направлены на расширение существующей системы для учета изменяющихся предпочтений пользователей и контекстуальной информации, что позволит создавать действительно персонализированные рекомендации. Вместо статических профилей, система сможет адаптироваться к текущему настроению, местоположению, времени суток и другим факторам, влияющим на выбор пользователя. Это достигается за счет использования более сложных алгоритмов, способных к обучению в реальном времени и построению динамических моделей поведения. Ожидается, что такая адаптивность значительно повысит релевантность предлагаемого контента и, как следствие, уровень удовлетворенности пользователей, обеспечивая более эффективный и приятный опыт взаимодействия с системой рекомендаций.

Исследования направлены на интеграцию методов обучения с подкреплением в процесс ранжирования рекомендаций, что позволит системам адаптироваться к долгосрочным предпочтениям пользователей и повышать их удовлетворенность. В отличие от традиционных подходов, которые оптимизируют краткосрочные метрики, обучение с подкреплением позволяет алгоритму «учиться на опыте», оценивая влияние каждой рекомендации на будущую активность пользователя. Такой подход предполагает формирование «агента», который взаимодействует с пользователем, предлагая различные варианты и получая обратную связь в виде кликов, покупок или других действий. Постепенно, агент совершенствует свою стратегию, максимизируя суммарное вознаграждение, которое отражает долгосрочную ценность рекомендаций. Это особенно важно в динамичных средах, где предпочтения пользователей постоянно меняются, и где требуется учитывать контекст и индивидуальные особенности каждого пользователя для построения действительно персонализированных рекомендаций.

Традиционные методы ранжирования рекомендаций часто сталкиваются с ограничениями при адаптации к быстро меняющимся предпочтениям пользователей и неспособностью генерировать действительно новые, неожиданные, но релевантные предложения. Исследования направлены на преодоление этих недостатков посредством внедрения генеративных моделей, способных не просто выбирать из существующего каталога, а создавать принципиально новые рекомендации, учитывая сложные паттерны поведения и контекст. Этот подход позволяет системам рекомендаций переходить от пассивного подбора к активному предложению, что потенциально повышает вовлеченность пользователей и обеспечивает более ценный опыт, удовлетворяя потребности, о которых пользователь мог даже не знать.

Исследование представляет собой смелый подход к оптимизации рекламных фидов, трансформируя сложную комбинаторную задачу в управляемый процесс авторегрессивного декодирования. Этот метод, по сути, исследует границы допустимого, стремясь к наиболее эффективному результату в рамках заданных ограничений. Как однажды заметил Алан Тьюринг: «Иногда люди, которые кажутся сумасшедшими, — это те, кто видят вещи, которые другие не видят». Подобно тому, как Тьюринг стремился расширить горизонты вычислительных возможностей, данная работа предлагает нетривиальное решение, бросающее вызов традиционным подходам к ранжированию и открывающее новые пути для достижения оптимальных результатов в многоцелевой оптимизации. Концепция Constraint-Aware Reward Pruning, предложенная в статье, особенно ярко иллюстрирует этот принцип — отсечение неперспективных вариантов для фокусировки на наиболее перспективных решениях.

Куда же это всё ведёт?

Представленный подход, трансформирующий задачу оптимизации рекламных потоков в процесс ограниченного авторегрессионного декодирования, безусловно, элегантен. Однако, как и любое изящное решение, он лишь отодвигает вопрос, а не решает его окончательно. Суть в том, что ограничения, накладываемые на рекламные потоки, редко бывают статичными. Они — динамичная конструкция, меняющаяся под давлением рыночных сил, предпочтений пользователей и, что самое важное, прихотей алгоритмов, определяющих эти самые предпочтения. Следующий шаг, следовательно, не в усовершенствовании декодирования, а в создании системы, способной динамически переопределять эти ограничения, возможно, даже предсказывать их эволюцию.

Более того, сама концепция «оптимальности» в контексте рекламных потоков вызывает сомнение. Не является ли погоня за максимизацией кликабельности или конверсии лишь локальным максимумом, за которым скрывается более глубокая и сложная картина? Возможно, истинный прогресс лежит не в усовершенствовании алгоритмов ранжирования, а в переосмыслении самой цели оптимизации. Следует ли стремиться к предсказуемости и стабильности, или к стимулированию спонтанности и открытия нового?

В конечном счёте, представленная работа открывает дверь к исследованию не просто алгоритмов ранжирования, но и к созданию самообучающихся систем, способных взламывать код потребительского поведения и перестраивать рекламные потоки в соответствии с этим кодом. Задача сложна, но, как известно, именно в сложности и кроется истинное удовольствие.

Оригинал статьи: https://arxiv.org/pdf/2603.04227.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-05 21:35