Понять пользователя: как предсказать раздражение от действий в сети

Автор: Денис Аветисян


Новое исследование показывает, что анализ последовательности действий пользователя позволяет вовремя распознать признаки цифрового раздражения.

Кривая потерь, полученная в процессе обучения и валидации классификатора на основе LSTM, демонстрирует его способность к эффективному обучению и обобщению, что свидетельствует о высокой точности предсказаний на новых данных.
Кривая потерь, полученная в процессе обучения и валидации классификатора на основе LSTM, демонстрирует его способность к эффективному обучению и обобщению, что свидетельствует о высокой точности предсказаний на новых данных.

Машинное обучение и модели последовательностей (LSTM) позволяют предсказывать цифровое раздражение пользователей по данным о кликах на веб-сайтах уже после 20-30 взаимодействий.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал

Потеря пользователей и снижение продаж часто являются следствием скрытой цифровой фрустрации, возникающей при взаимодействии с онлайн-сервисами. В данной работе, озаглавленной ‘Machine Learning to Predict Digital Frustration from Clickstream Data’, исследуется возможность прогнозирования негативного пользовательского опыта на основе анализа данных о кликах (clickstream data). Полученные результаты демонстрируют высокую точность (до 91%) выявления фрустрирующих сессий с использованием моделей машинного обучения, включая рекуррентные нейронные сети (LSTM), причем надежные прогнозы возможны уже после анализа первых 20-30 действий пользователя. Каким образом подобные модели могут быть интегрированы в системы поддержки пользователей для оперативного предотвращения негативного опыта и повышения лояльности?


Распознавание сигналов цифрового раздражения

В современном цифровом мире пользователи всё чаще сталкиваются с трудностями при взаимодействии с онлайн-сервисами, что приводит к ощущению разочарования и, в конечном итоге, к отказу от использования платформы. Эта проблема оказывает значительное влияние на коммерческие показатели, поскольку потерянные пользователи напрямую отражаются на объеме продаж и репутации компании. Неспособность быстро и эффективно решить возникшую проблему приводит к уходу клиента к конкурентам, а накопление негативного опыта формирует неблагоприятное впечатление о бренде. Поэтому понимание причин и признаков возникающего у пользователей раздражения становится критически важным для обеспечения положительного пользовательского опыта и поддержания конкурентоспособности в онлайн-среде.

Для точного определения моментов, когда пользователи испытывают раздражение в цифровой среде, недостаточно полагаться на общие показатели, такие как время, проведенное на сайте, или количество просмотренных страниц. Вместо этого необходим анализ детализированных данных о взаимодействии пользователя с интерфейсом. Это предполагает отслеживание конкретных действий, таких как длительное блуждание по сайту без достижения цели, повторные неудачные поисковые запросы или внезапное прерывание заполнения формы. Такой подход позволяет выявить скрытые закономерности и предсказать вероятность возникновения негативного опыта, что, в свою очередь, дает возможность оперативно реагировать и улучшать пользовательский интерфейс для повышения удовлетворенности и лояльности.

Исследование выявило, что длительное и бесцельное перемещение по сайту — так называемое “долгое блуждание” — является одним из ключевых индикаторов цифровой фрустрации пользователя. Не менее важным сигналом выступает отказ от совершения покупки после добавления товаров в корзину (“отток корзин”), что часто свидетельствует о сложностях оформления заказа или неясности условий. Кроме того, повторные, безуспешные поисковые запросы (“поисковая борьба”) указывают на неэффективность внутренней поисковой системы или отсутствие необходимой информации. В совокупности, эти поведенческие паттерны позволяют выявить моменты, когда пользователь испытывает затруднения и близок к уходу с сайта, предоставляя ценную информацию для улучшения пользовательского опыта и оптимизации конверсии.

Анализ цифрового опыта пользователей выявляет ряд ключевых индикаторов, сигнализирующих о растущей фрустрации. Помимо длительных, бесцельных перемещений по сайту и отказа от совершения покупки, важную роль играют так называемые “яростные клики” — многократные нажатия на один и тот же элемент, а также “развороты” — внезапные возвраты на предыдущие страницы. Совокупность этих сигналов позволяет сформировать более полное представление о взаимодействии пользователя с онлайн-платформой. Примечательно, что в ходе анализа 304 881 сессии, примерно 18.91% были классифицированы как демонстрирующие признаки фрустрации, что подчеркивает масштабность проблемы и необходимость более глубокого изучения поведения пользователей в цифровой среде.

Анализ важности признаков показывает, что низкие значения вероятности просмотра (P(view)) коррелируют с классом, обозначающим фрустрацию, а высокие - с отсутствием фрустрации, при этом XGBoost в первую очередь опирается на этот признак для классификации.
Анализ важности признаков показывает, что низкие значения вероятности просмотра (P(view)) коррелируют с классом, обозначающим фрустрацию, а высокие — с отсутствием фрустрации, при этом XGBoost в первую очередь опирается на этот признак для классификации.

Построение основы: от кликов к сессиям

Сессионизация представляет собой процесс объединения необработанных данных о кликах (clickstream data) в отдельные пользовательские сессии. Этот процесс основывается на временных интервалах или активности пользователя. Сессия обычно определяется как последовательность действий, выполненных пользователем в течение определенного периода неактивности, например, 30 минут. Если пользователь совершает какое-либо действие (клик, отправка формы и т.д.) в течение этого периода, его действия продолжают относиться к текущей сессии. Сессионизация является необходимым шагом для анализа поведения пользователей, позволяя отслеживать их действия в рамках единого взаимодействия с веб-приложением или сайтом.

После проведения сессионизации, то есть группировки данных о действиях пользователей в отдельные сессии, применяется стратегия маркировки. Данная стратегия предполагает отнесение каждой сессии к одной из категорий: «фрустрирующая» (проблемная) или «не фрустрирующая». Классификация осуществляется на основе заранее определенных индикаторов, таких как количество повторных кликов по одному и тому же элементу или совершение «разворотов» (U-turns) — возвратов на предыдущую страницу после перехода. Точность определения фрустрирующих сессий критически важна для дальнейшего анализа пользовательского опыта и разработки мер по улучшению интерфейса.

Процесс маркировки сессий основывается на выявлении специфических паттернов поведения пользователей, таких как «яростные клики» (rage clicks) — многократные клики в одной и той же области за короткий период времени — и «развороты» (U-turns), представляющие собой последовательные переходы между двумя страницами. Эти паттерны служат индикаторами затруднений или неудовлетворенности пользователя. Совокупность размеченных сессий, где каждый сеанс классифицирован как «проблемный» или «успешный» на основе наличия или отсутствия данных паттернов, формирует «золотой стандарт» (ground truth) для обучения и оценки прогностических моделей, направленных на автоматическое выявление проблемных сценариев взаимодействия.

Чётко определенная стратегия маркировки (labeling) является основополагающим этапом при обучении и оценке прогностических моделей, используемых для анализа пользовательского опыта. Качество и точность маркированных данных напрямую влияют на способность модели выявлять закономерности, связанные с негативным поведением пользователей, таким как повторные клики (rage clicks) или возвраты на предыдущую страницу (U-turns). Использование корректно размеченных сессий позволяет не только обучить модель предсказывать вероятность возникновения проблем у пользователей, но и объективно оценить ее эффективность, используя метрики точности и полноты, что необходимо для итеративного улучшения и оптимизации производительности модели.

Комбинированная ROC-кривая демонстрирует высокую эффективность как XGBoost, так и LSTM в различении классов (0 и 1), при этом LSTM незначительно превосходит XGBoost по AUC (0.97 против 0.96), что указывает на его чуть более высокую точность в выявлении проблемных сессий при одинаковом уровне ложных срабатываний.
Комбинированная ROC-кривая демонстрирует высокую эффективность как XGBoost, так и LSTM в различении классов (0 и 1), при этом LSTM незначительно превосходит XGBoost по AUC (0.97 против 0.96), что указывает на его чуть более высокую точность в выявлении проблемных сессий при одинаковом уровне ложных срабатываний.

Извлечение прогностических признаков из пользовательских траекторий

Инженерия признаков (feature engineering) представляет собой процесс преобразования данных о пользовательских сессиях в количественно измеримые признаки, отражающие поведение пользователей. Этот процесс включает в себя извлечение и кодирование информации о действиях пользователя, таких как просмотренные страницы, клики, время, проведенное на сайте, и последовательность этих действий. Полученные признаки служат входными данными для алгоритмов машинного обучения, позволяя им выявлять закономерности и прогнозировать поведение пользователей. Важно, чтобы признаки были релевантны поставленной задаче и адекватно отражали ключевые аспекты поведения пользователей, что напрямую влияет на точность и эффективность моделей.

Для анализа последовательностей действий пользователей применяются методы N-грамм и HVG-мотивов. N-граммы позволяют выявить часто встречающиеся последовательности из N взаимодействий, например, последовательность страниц, просмотренных пользователем. HVG-мотивы (High-Volume Graph Motifs) представляют собой повторяющиеся подграфы в графе навигации, отражающие сложные паттерны поведения, такие как возвраты к предыдущим шагам или использование определенных функций в определенной последовательности. Использование HVG-мотивов позволяет идентифицировать не только простые линейные последовательности, но и более сложные, циклические или ветвящиеся паттерны, которые могут указывать на затруднения или особые потребности пользователя.

Для учета временных закономерностей в поведении пользователей, в процесс формирования признаков включаются циклические характеристики. В частности, это достигается путем кодирования дня недели, часа суток и месяца в качестве отдельных числовых признаков. Такие признаки позволяют моделям машинного обучения учитывать влияние времени на взаимодействие пользователя с системой, например, повышенную активность в определенные дни или часы, или сезонные колебания в поведении. Использование циклических признаков повышает точность прогнозирования, особенно в задачах, связанных с предсказанием уровня удовлетворенности или вероятностью возникновения проблем у пользователя.

Сформированные признаки, полученные в результате обработки данных о пользовательских сессиях, используются в качестве входных данных для различных моделей машинного обучения, предназначенных для прогнозирования уровня раздражения пользователей. Эти модели включают в себя, но не ограничиваются, алгоритмами регрессии, классификации и нейронными сетями. Входные признаки, представляющие собой числовые значения, описывающие поведение пользователей, позволяют моделям выявлять корреляции между паттернами взаимодействия и вероятностью возникновения негативных эмоций. Точность прогнозирования напрямую зависит от качества и релевантности выбранных признаков, а также от архитектуры и параметров используемой модели машинного обучения.

Анализ важности признаков XGBoost показал, что признаки P(view), P(view to detail), hz, z2 и z3 существенно влияют на точность модели, в то время как признаки hz, z2, z4 и P(add to add) наиболее эффективно снижают потери.
Анализ важности признаков XGBoost показал, что признаки P(view), P(view to detail), hz, z2 и z3 существенно влияют на точность модели, в то время как признаки hz, z2, z4 и P(add to add) наиболее эффективно снижают потери.

Прогностическое моделирование и раннее обнаружение фрустрации

Для оценки возможности прогнозирования пользовательской фрустрации был проведен сравнительный анализ нескольких алгоритмов машинного обучения. В рамках исследования рассматривались такие методы, как ‘Logistic Regression’, известные своей простотой и интерпретируемостью, ‘Random Forest’, демонстрирующие высокую устойчивость к переобучению, и ‘XGBoost’, отличающиеся высокой производительностью и точностью. Каждый алгоритм был обучен и протестирован на наборе данных, содержащем информацию о взаимодействии пользователей с системой, что позволило оценить их способность выявлять признаки, предшествующие возникновению фрустрации. Полученные результаты позволили определить наиболее эффективные модели для дальнейшего использования в системах раннего обнаружения и предотвращения негативного пользовательского опыта.

Для повышения эффективности моделей прогнозирования, исследователи применили преобразование Йео-Джонсона, направленное на устранение асимметрии в данных. Асимметрия, или неравномерное распределение значений признаков, может существенно снижать точность работы алгоритмов машинного обучения. Преобразование Йео-Джонсона, являясь непараметрическим аналогом логарифмического преобразования, позволило нормализовать распределение данных, сделав их более подходящими для использования в моделях, таких как логистическая регрессия, случайный лес и XGBoost. Это, в свою очередь, способствовало улучшению способности моделей к точному выявлению признаков, предвещающих возникновение пользовательской фрустрации, и, как следствие, повышению общей производительности системы.

Исследования показали, что модели классификации на основе долгой краткосрочной памяти (LSTM) демонстрируют наивысшую точность в предсказании пользовательской фрустрации, достигая 91% и значения ROC AUC в 0.9705. Вторым по эффективности алгоритмом оказался XGBoost, с точностью 90% и ROC AUC 0.9579. Эти результаты указывают на высокую способность указанных методов выявлять паттерны, предшествующие возникновению негативных эмоций у пользователей, что позволяет разработать системы, способные оперативно реагировать на потенциальные проблемы и улучшать пользовательский опыт. Высокие показатели точности и площади под ROC-кривой подтверждают надежность и эффективность предложенных моделей для решения задачи раннего выявления фрустрации.

Модели долгосрочной краткосрочной памяти (LSTM) продемонстрировали выдающиеся способности к прогнозированию пользовательской фрустрации на самых ранних этапах взаимодействия. Анализ показал, что надежное определение вероятности возникновения негативных эмоций возможно уже в течение первых 20-30 действий пользователя. Это открывает возможности для проактивного вмешательства: система может предложить помощь или упростить процесс, предотвращая эскалацию раздражения. Такой подход позволяет не просто реагировать на уже возникшую проблему, а предугадывать её и оперативно корректировать пользовательский опыт, значительно повышая уровень удовлетворенности и эффективности взаимодействия.

Кривые обучения и валидации демонстрируют успешное обучение модели XGBoost.
Кривые обучения и валидации демонстрируют успешное обучение модели XGBoost.

Исследование демонстрирует, что обнаружение цифрового разочарования пользователя возможно на ранних этапах взаимодействия с системой, а именно, в пределах первых 20-30 кликов. Этот подход к анализу потока кликов, основанный на применении моделей машинного обучения и рекуррентных нейронных сетей (LSTM), представляет собой элегантное решение проблемы. Как заметил Блез Паскаль: «Все проблемы человечества происходят от одного простого факта: люди не могут спокойно сидеть в комнате». Аналогично, невозможность предвидеть и предотвратить цифровое разочарование пользователя приводит к потере эффективности и негативному опыту. Строгость математического подхода, применяемого в данной работе, позволяет с высокой степенью достоверности выявлять паттерны поведения, указывающие на зарождающуюся фрустрацию, и тем самым приближает нас к созданию действительно удобных и отзывчивых цифровых систем.

Куда Ведет Этот Путь?

Представленное исследование, продемонстрировавшее возможность выявления цифрового разочарования по данным кликстрима, лишь приоткрывает завесу над сложной реальностью взаимодействия человека и машины. Успешное предсказание в первые 20-30 действий пользователя, безусловно, обнадеживает, однако необходимо признать, что корреляция — не причинность. Выявление паттернов поведения, предвещающих фрустрацию, — это первый шаг, но понимание почему пользователь испытывает раздражение, требует гораздо более глубокого анализа. Недостаточно просто предсказать, необходимо понять механизм возникновения проблемы.

Дальнейшие исследования должны быть направлены на преодоление ограничений, связанных с контекстуальностью данных. Клики — лишь верхушка айсберга. Настоящая ценность кроется в понимании намерений пользователя, его предыдущего опыта, и даже его эмоционального состояния, которые, разумеется, не отражены напрямую в логах кликстрима. Интеграция данных из различных источников, включая текстовые запросы, время, затраченное на выполнение задач, и даже анализ тональности сообщений, представляется перспективным направлением.

В конечном итоге, в хаосе данных спасает только математическая дисциплина. Искусственный интеллект, стремящийся к эмпатии, должен основываться на строгих алгоритмах и доказуемых моделях, а не на статистической случайности. Иначе, мы рискуем создать иллюзию понимания, которая обернется лишь новым уровнем разочарования — уже для самих разработчиков.


Оригинал статьи: https://arxiv.org/pdf/2512.20438.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-24 20:40