Прогнозирование кликов: новый взгляд на данные Taobao

Автор: Денис Аветисян


В статье рассматривается разработка и оценка модели предсказания CTR на основе Transformer-архитектуры, использующей последовательное моделирование поведения пользователей.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
Анализ рекламных объявлений выявил взаимосвязь между узнаваемостью бренда, градиентом цен и распределением кликабельности, демонстрируя, как эти факторы совместно влияют на эффективность рекламных кампаний.
Анализ рекламных объявлений выявил взаимосвязь между узнаваемостью бренда, градиентом цен и распределением кликабельности, демонстрируя, как эти факторы совместно влияют на эффективность рекламных кампаний.

Исследование посвящено применению традиционных и глубоких моделей машинного обучения для прогнозирования CTR на большом наборе данных Taobao, с акцентом на моделирование поведения пользователей и A/B-тестирование.

Прогнозирование кликабельности (CTR) является критически важной задачей в современных рекламных системах, однако традиционные подходы часто не учитывают динамику поведения пользователей. В работе «CTR Prediction on Alibaba’s Taobao Advertising Dataset Using Traditional and Deep Learning Models» исследуется возможность повышения точности прогнозов CTR с использованием масштабного датасета Taobao от Alibaba, с применением как классических моделей машинного обучения, так и глубоких нейронных сетей, включая архитектуру на основе Transformer. Разработанная модель, учитывающая последовательность действий пользователей, продемонстрировала значительное улучшение метрики AUC по сравнению с базовыми решениями, особенно для пользователей с меняющимися интересами. Какие перспективы открывает такое моделирование поведения для персонализации не только рекламных кампаний, но и других сервисов, ориентированных на индивидуальные потребности пользователя?


Прогнозирование CTR: Основа Релевантной Рекламы

Прогнозирование коэффициента кликабельности (CTR) является основополагающей задачей в сфере онлайн-рекламы, напрямую влияющей на релевантность рекламных объявлений и, как следствие, на доход. CTR отражает долю пользователей, которые, увидев рекламу, совершили клик по ней, и этот показатель служит ключевым индикатором эффективности рекламной кампании. Высокий CTR свидетельствует о том, что реклама интересна целевой аудитории и соответствует ее запросам, что приводит к увеличению конверсии и прибыли. В условиях жесткой конкуренции за внимание пользователей, точное прогнозирование CTR позволяет оптимизировать рекламные бюджеты, показывать наиболее релевантную рекламу каждому пользователю и максимизировать отдачу от инвестиций в рекламу.

Традиционные методы прогнозирования кликабельности (CTR) зачастую оказываются неэффективными при работе со сложностью поведения пользователей и взаимодействием различных факторов. Стандартные модели, такие как логистическая регрессия или линейные модели, не способны улавливать нелинейные зависимости и тонкие взаимосвязи между признаками, характеризующими пользователя, контекст и само объявление. Это приводит к неточностям в прогнозах и, как следствие, к снижению эффективности рекламных кампаний. Поэтому для достижения более высокой точности и адаптации к постоянно меняющемуся поведению пользователей, требуется применение более сложных подходов, включающих, например, модели глубокого обучения или ансамблевые методы, способные учитывать больше факторов и улавливать более сложные паттерны.

Точное прогнозирование коэффициента кликабельности (CTR) играет ключевую роль в эффективной таргетированной рекламе, значительно улучшая пользовательский опыт и результативность рекламных кампаний. Анализ данных, в частности, на платформе Taobao, демонстрирует базовый общий CTR на уровне 5.14%, что указывает на относительно низкую вероятность клика по случайной рекламе. Соответственно, повышение точности прогнозирования CTR позволяет системам показывать наиболее релевантные объявления каждому пользователю, увеличивая вероятность взаимодействия и, как следствие, повышая доходность рекламных инвестиций. Более точные модели учитывают сложные паттерны поведения пользователей и взаимодействие различных факторов, что позволяет значительно превзойти базовые показатели и оптимизировать рекламные стратегии.

Временные паттерны показывают взаимосвязь между показами, кликами и коэффициентом кликабельности (CTR).
Временные паттерны показывают взаимосвязь между показами, кликами и коэффициентом кликабельности (CTR).

Строим Прогнозы: Признаки и Алгоритмы

Эффективное предсказание CTR (Click-Through Rate) напрямую зависит от использования широкого набора признаков, которые можно классифицировать на три основные группы. Признаки пользователя включают демографические данные, историю просмотров, предпочтения и поведенческие характеристики, позволяющие оценить вероятность клика конкретным пользователем. Признаки рекламы охватывают информацию о самом рекламном объявлении, такую как его категория, текст, изображение, и целевая аудитория. Наконец, контекстуальные признаки учитывают внешние факторы, влияющие на взаимодействие пользователя с рекламой, включая время суток, географическое местоположение, тип устройства и источник трафика. Комбинация этих признаков позволяет моделям машинного обучения более точно оценивать вероятность клика и оптимизировать рекламные кампании.

Для прогнозирования CTR (Click-Through Rate) широко используются различные модели машинного обучения, такие как логистическая регрессия, LightGBM и многослойные персептроны (MLP). Логистическая регрессия, благодаря своей простоте и интерпретируемости, часто применяется как базовая модель, однако она может быть недостаточно эффективной для улавливания сложных нелинейных зависимостей. LightGBM, являясь градиентным бустингом на деревьях решений, демонстрирует высокую точность и скорость обучения, особенно при работе с большими объемами данных. Модели MLP, в свою очередь, позволяют моделировать сложные взаимосвязи между признаками, но требуют тщательной настройки гиперпараметров и могут быть склонны к переобучению. Выбор конкретной модели зависит от специфики данных, доступных вычислительных ресурсов и требуемого баланса между точностью и скоростью работы.

Многослойные персептроны (MLP) эффективно используют методы представления категориальных признаков, такие как Embedding Layers, преобразующие дискретные значения в векторы вещественных чисел, что позволяет модели улавливать взаимосвязи между категориями. Дополнительно, Feature Engineering, включающий создание новых, более информативных признаков на основе существующих, значительно повышает производительность MLP. В данной работе для прогнозирования CTR была использована Transformer-модель, содержащая 147 миллионов параметров, что демонстрирует использование современных архитектур глубокого обучения для решения данной задачи.

Валидация и Уточнение Прогнозов: Обеспечение Надежности

Импутация данных является критически важным этапом предобработки, необходимым для корректной работы моделей машинного обучения. Отсутствующие значения в обучающем наборе данных могут привести к смещению модели и снижению ее обобщающей способности. Методы импутации включают в себя замену пропущенных значений средним, медианой, модой, или использование более сложных алгоритмов, таких как k-ближайших соседей или методы на основе машинного обучения для предсказания отсутствующих данных. Выбор подходящего метода зависит от характера данных и доли пропущенных значений; некорректная импутация может внести систематическую ошибку и ухудшить качество прогнозов.

Перекрестная проверка (Cross-Validation) представляет собой метод оценки производительности модели машинного обучения путем разделения исходного набора данных на несколько подмножеств, используемых последовательно для обучения и тестирования. В процессе перекрестной проверки модель обучается на части данных, а затем оценивается на оставшейся, неиспользованной части. Этот процесс повторяется несколько раз, используя различные комбинации обучающих и тестовых данных. Использование перекрестной проверки позволяет получить более надежную оценку способности модели к обобщению (generalization ability) на новые, ранее не встречавшиеся данные, и эффективно предотвращает переобучение (overfitting) модели к конкретному набору данных, что повышает ее устойчивость и предсказательную силу.

Оценка моделей машинного обучения включает в себя использование метрик, таких как Log Loss, для количественной оценки точности прогнозов. Log Loss, также известный как логарифмическая потеря, измеряет производительность модели на основе вероятностей, предсказанных для каждого класса. Чем ниже значение Log Loss, тем точнее модель. В ходе экспериментов, модель Transformer показала значение Log Loss, равное 0.567, что позволяет использовать данную метрику для сравнения с другими моделями и последующей оптимизации их параметров для достижения более высокой точности прогнозирования. Формула для расчета Log Loss выглядит следующим образом: $Loss = — \frac{1}{N} \sum_{i=1}^{N} [y_i \log(p_i) + (1 — y_i) \log(1 — p_i)]$, где $y_i$ — фактическая метка класса, а $p_i$ — предсказанная вероятность принадлежности к данному классу.

Оптимизация и Масштабирование Прогнозов: Влияние на Реальность

A/B-тестирование представляет собой ключевой метод оценки эффективности различных моделей и стратегий прогнозирования в реальных условиях эксплуатации. Данный подход позволяет одновременно запускать две или более версии системы — контрольную и экспериментальную — и сравнивать их производительность на основе фактических данных, получаемых от пользователей. В отличие от лабораторных исследований, A/B-тестирование учитывает динамику реального трафика и поведение пользователей в естественной среде, что обеспечивает более надежную оценку влияния изменений. Этот метод позволяет точно определить, какие улучшения действительно приводят к повышению ключевых показателей, таких как кликабельность (CTR) или конверсия, и принимать обоснованные решения о внедрении новых моделей и стратегий в производственную среду. Благодаря своей простоте и эффективности, A/B-тестирование стало неотъемлемой частью процесса оптимизации и масштабирования систем прогнозирования в различных отраслях.

Автоматизированные методы машинного обучения (AutoML) позволяют существенно упростить и ускорить процесс подбора оптимальных гиперпараметров и выбора наиболее эффективной модели. Вместо ручного тестирования множества комбинаций, AutoML использует алгоритмы для автоматического поиска наилучшей конфигурации, что значительно повышает производительность и снижает временные затраты. Данные методы не только оптимизируют существующие модели, но и способны самостоятельно выбирать наиболее подходящий алгоритм для конкретной задачи, обеспечивая более эффективное использование ресурсов и достижение лучших результатов в предсказании коэффициента кликабельности (CTR) и других метрик.

Основная цель точного прогнозирования кликабельности (CTR) заключается в создании более релевантного и привлекательного рекламного опыта для пользователей, что, в свою очередь, приносит выгоду и рекламодателям. Данное исследование продемонстрировало значительное улучшение — на 6.64% — в общем показателе CTR по сравнению с моделями, основанными на статических признаках. Достигнутое значение площади под ROC-кривой (AUC) составило 0.687, что подтверждает эффективность предложенного подхода и его потенциал для оптимизации рекламных кампаний и повышения вовлеченности аудитории. Улучшенное прогнозирование CTR позволяет показывать пользователям наиболее интересные и полезные объявления, повышая их лояльность и эффективность рекламного бюджета.

Расширяя Горизонты: CTR для Общественного Блага

Точное предсказание коэффициента кликабельности (CTR) открывает новые возможности для применения в сфере общественного здравоохранения. Анализируя данные о пользователях и их предпочтениях, можно создавать персонализированные информационные кампании, направленные на повышение осведомленности о различных заболеваниях и способах их профилактики. Вместо рассылки общей информации, системы, основанные на предсказании CTR, позволяют доставлять релевантные сообщения конкретным группам населения, увеличивая вероятность того, что информация будет воспринята и использована. Это особенно важно для критически важных тем, таких как вакцинация, скрининг на рак или здоровый образ жизни, где своевременное информирование может существенно повлиять на состояние здоровья и благополучие населения. Таким образом, технология CTR становится мощным инструментом для улучшения общественного здоровья и повышения эффективности профилактических мер.

Анализ поведения пользователей и их предпочтений позволяет создавать персонализированные сообщения о здоровье, значительно повышая их эффективность. Исследования показывают, что таргетированные информационные кампании, учитывающие индивидуальные особенности аудитории, приводят к более высокой вовлеченности и лучшему восприятию информации. Вместо универсальных рекомендаций, которые могут быть проигнорированы, формируется адресное сообщение, соответствующее интересам и потребностям конкретного человека. Такой подход способствует более осознанному отношению к здоровью, стимулирует профилактические меры и в конечном итоге приводит к улучшению показателей общественного здоровья. Использование данных о предпочтениях позволяет оптимизировать не только содержание, но и формат подачи информации, делая ее более привлекательной и понятной для каждого.

Оценка вероятности клика (CTR) выходит далеко за рамки коммерческой рекламы, демонстрируя значительный потенциал для решения общественно значимых задач и улучшения качества жизни. Изначально разработанные для оптимизации рекламных кампаний, алгоритмы прогнозирования CTR способны эффективно направлять важную информацию нуждающимся, например, в сфере здравоохранения или образования. Способность выявлять закономерности в поведении пользователей позволяет создавать персонализированные сообщения, которые с большей вероятностью привлекут внимание и приведут к желаемому результату — будь то повышение осведомленности о профилактике заболеваний, участие в социальных инициативах или получение необходимой помощи. Таким образом, применение технологий CTR выходит за рамки коммерческой выгоды и открывает новые возможности для улучшения благосостояния общества в целом, подчеркивая их универсальность и применимость в различных сферах жизни.

Исследование, представленное в статье, демонстрирует стремление понять и оптимизировать сложную систему предсказания CTR на платформе Taobao. Авторы не просто применяют существующие модели, но и тщательно исследуют возможности последовательного моделирования поведения пользователей, что позволяет глубже проникнуть в закономерности взаимодействия. Как заметил Дональд Кнут: «Прежде чем оптимизировать код, убедитесь, что он не работает». Эта фраза отражает подход, когда прежде чем внедрять сложные алгоритмы, необходимо тщательно проанализировать базовые принципы работы системы и убедиться в её корректности. Тщательное A/B-тестирование, описанное в статье, является подтверждением этого принципа — проверка работоспособности и эффективности новой модели в реальных условиях.

Что дальше?

Представленная работа, подобно удачно собранному алгоритму, демонстрирует возможности предсказания CTR, но лишь открывает завесу над сложной реальностью поведения пользователя. По сути, это декомпиляция небольшого участка кода, в то время как сама система — огромный, постоянно меняющийся репозиторий. Очевидно, что совершенствование архитектур, таких как Transformer, — это лишь один из путей. Гораздо интереснее выглядит задача извлечения семантических связей из «шума» пользовательских взаимодействий — понимание не просто что пользователь делает, а почему.

Представленные модели, пусть и эффективные, все еще оперируют с агрегированными данными. Будущее, вероятно, за персонализированными моделями, способными учитывать не только историю взаимодействия, но и контекст, эмоциональное состояние, и даже подсознательные предпочтения пользователя. Причем, ключевым вызовом становится не столько создание более сложных алгоритмов, сколько разработка методов, позволяющих получать и интерпретировать эти данные, не нарушая принципов конфиденциальности.

В конечном счете, предсказание CTR — это лишь инструмент. Истинная цель — не оптимизация рекламного дохода, а понимание самой системы, в которой мы живем. Реальность — это открытый исходный код, который мы еще не прочитали, и каждая новая модель — это лишь попытка расшифровать очередную строку.


Оригинал статьи: https://arxiv.org/pdf/2511.21963.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-02 04:48