Искусственный интеллект на службе онлайн-шоппинга: как обучить агентов для поиска товаров

Автор: Денис Аветисян

Новая методика позволяет значительно улучшить работу ИИ-агентов, собирающих информацию о товарах в интернет-магазинах, благодаря использованию синтетических данных и многоагентных систем.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

В разработанной структуре ProductResearch агент пользователя, анализируя историю поведения, формирует профиль, исследовательский запрос и критерии оценки RACE, после чего исследовательский агент, под надзором супервизора, реализует последовательность действий «План → Вызов инструмента → Отчёт», получая верификацию и корректировку на каждом шаге, а одобренные траектории, отфильтрованные по длине и подвергнутые рефлексивной интернализации, используются для обучения модели в режиме контролируемого обучения.

В статье представлена платформа ProductResearch, использующая дистилляцию траекторий для обучения агентов глубокого поиска в электронной коммерции.

Несмотря на перспективность агентов на основе больших языковых моделей (LLM) для онлайн-шопинга, существующие реализации часто демонстрируют недостаточную глубину взаимодействия и понимания контекста при сложном поиске товаров. В данной работе, представленной под названием ‘ProductResearch: Training E-Commerce Deep Research Agents via Multi-Agent Synthetic Trajectory Distillation’, предлагается многоагентная система, генерирующая синтетические траектории использования инструментов для обучения надежных торговых агентов. Разработанный фреймворк позволяет значительно улучшить качество получаемых ответов, глубину исследований и общую полезность для пользователя, приближаясь по эффективности к передовым проприетарным системам глубокого поиска. Возможно ли дальнейшее масштабирование данного подхода для создания действительно интеллектуальных помощников в электронной коммерции, способных к полноценному диалогу и глубокому анализу потребностей покупателя?

Вызовы Автоматизированных Исследовательских Агентов

Современные системы, предназначенные для автоматизированного проведения исследований, испытывают значительные трудности при решении сложных, долгосрочных задач, требующих обширного сбора информации. Существующие подходы, как правило, не способны эффективно справляться с необходимостью последовательного анализа большого объема данных из различных источников, выявления релевантной информации и ее синтеза в осмысленные выводы. Проблема усугубляется тем, что большинство агентов полагаются на поверхностное сканирование информации, что приводит к неполным или неточным результатам, особенно при исследовании многогранных и слабоструктурированных тем. В результате, автоматическое проведение глубоких, комплексных исследований остается сложной задачей, требующей значительных усилий по разработке более надежных и эффективных методов сбора и обработки информации.

Несмотря на впечатляющий прогресс в области больших языковых моделей, простого увеличения их масштаба недостаточно для достижения подлинных исследовательских возможностей. Исследования показывают, что такие модели часто испытывают трудности с поддержанием последовательности и точности при обработке больших объемов информации, необходимых для сложных задач. Вместо этого, эффективное решение требует перехода к более структурированным подходам, включающим четкое разделение задач, использование специализированных инструментов для поиска и анализа данных, а также механизмы для проверки и подтверждения полученных результатов. Такой подход позволяет не просто генерировать текст, но и проводить целенаправленный анализ, синтезировать информацию из различных источников и формулировать обоснованные выводы, что является ключевым аспектом настоящих исследований.

Эффективное исследование требует не просто извлечения информации, но и способности к рассуждению, планированию и надежному выполнению намеченных планов. Современные системы часто демонстрируют впечатляющую скорость поиска данных, однако не способны самостоятельно синтезировать знания, выявлять противоречия или адаптировать стратегию в процессе работы. Истинный исследовательский агент должен обладать алгоритмами, позволяющими ему формулировать гипотезы, оценивать достоверность источников, выстраивать последовательность действий для проверки этих гипотез и, в случае неудачи, корректировать план исследования. Например, при изучении сложной научной темы, система должна уметь не только находить релевантные статьи, но и критически анализировать их, выявлять пробелы в знаниях и планировать дальнейшие шаги для их устранения, подобно опытному ученому, а не просто собирать информацию без осмысленной обработки.

Представляем Framework ProductResearch

Продуктовый исследовательский фреймворк (ProductResearch Framework) представляет собой новую многоагентную систему, разработанную для обучения надежных deep-learning агентов, специализирующихся на исследовании электронной коммерции. Данная система построена на взаимодействии нескольких агентов, что позволяет моделировать и автоматизировать процесс исследования продуктов. Ключевой особенностью является возможность обучения агентов в условиях, приближенных к реальным, что повышает их устойчивость и эффективность в выполнении задач, связанных с поиском и анализом информации о товарах и услугах в онлайн-среде.

В основе фреймворка лежит взаимодействие между тремя агентами: Пользовательским (User Agent), Исследовательским (Research Agent) и Контролирующим (Supervisor Agent). Пользовательский агент инициирует исследовательский процесс, задавая цели и критерии. Исследовательский агент выполняет поиск информации и анализ данных для достижения поставленных задач. Контролирующий агент оценивает качество действий Исследовательского агента и предоставляет обратную связь, корректируя его поведение для оптимизации траектории исследования. Именно эта совместная работа агентов позволяет генерировать высококачественные траектории обучения, необходимые для разработки надежных и эффективных агентов для глубокого анализа в сфере электронной коммерции.

Фреймворк обеспечивает создание обширного набора данных для обучения сложным навыкам исследования, моделируя полный жизненный цикл поиска информации. Этот процесс включает в себя последовательность действий, начиная с формулировки запроса пользователем, его обработки агентом исследования, и последующей оценки и корректировки со стороны агента-супервизора. Генерируемые траектории включают в себя не только успешные, но и неудачные попытки поиска, а также информацию о принятых решениях и соответствующих результатах. Такая полнота данных позволяет обучать агентов не только находить релевантную информацию, но и адаптироваться к различным ситуациям, оценивать качество полученных результатов и оптимизировать стратегии поиска.

Синтез Высокоточных Данных для Обучения

В основе обучения исследовательских агентов лежит генерация синтетических траекторий — последовательностей действий и наблюдений, моделирующих процесс исследования. Эти траектории формируются программно, позволяя создать масштабный набор данных для обучения без необходимости ручного сбора информации. Каждая траектория представляет собой полную историю взаимодействия агента с внешней средой, включающую предпринятые действия и полученные в результате наблюдения, что позволяет агенту изучать оптимальные стратегии решения исследовательских задач в контролируемых условиях. Объем и разнообразие генерируемых траекторий напрямую влияют на эффективность обучения и обобщающую способность агента.

Метод “Рефлексивной Интернализации” позволяет повысить эффективность обучения агентов за счет преобразования многоходовых взаимодействий с супервизором в примеры обучения для одного агента. Вместо использования полных диалогов, включающих вопросы и ответы, метод дистиллирует ключевую информацию из этих взаимодействий, создавая более компактные и целенаправленные обучающие примеры. Это достигается путем анализа последовательности действий и оценок супервизора, извлечения наиболее релевантных шагов и соответствующих им ожидаемых результатов, и последующего формирования единого примера обучения, ориентированного на конкретную роль агента. Такой подход снижает вычислительные затраты и ускоряет процесс обучения, сохраняя при этом качество получаемых результатов.

Агент исследования выполняет план, включающий в себя использование инструментов (Web Search, Product Search) для сбора информации и генерацию отчета, направленного на решение поставленного исследовательского запроса. Процесс включает последовательное выполнение действий: поиск релевантных данных в сети Интернет и на платформах продуктов, анализ полученной информации и последующую компиляцию в структурированный отчет, отвечающий требованиям исследования. Использование инструментов позволяет агенту расширить свои возможности за пределами имеющихся знаний и обеспечить актуальность и достоверность предоставляемой информации.

Агент-супервизор обеспечивает контроль качества на каждом этапе выполнения задания, используя разработанную оценочную рубрику. Эта рубрика содержит четкие критерии оценки, охватывающие такие аспекты, как релевантность информации, точность фактов, логичность аргументации и соответствие требованиям исследования. Применение оценочной рубрики позволяет стандартизировать процесс оценки и обеспечивать соответствие генерируемых данных высоким исследовательским стандартам, что критически важно для обучения агентов и повышения достоверности полученных результатов. Контроль осуществляется на уровне каждого шага выполнения плана, позволяя оперативно корректировать действия агента и предотвращать накопление ошибок.

Показатели RACE демонстрируют улучшение качества промежуточных отчетов по мере итеративного процесса синтеза.

Подтверждение Эффективности Агента и Перспективы Развития

Для оценки эффективности обученного агента глубокого исследования применялась метрика RACE — структурированная система оценки качества исследовательских отчетов. Данный подход предполагает сравнение результатов работы агента с заранее определенными критериями, охватывающими различные аспекты — от полноты охвата темы до логической связности и достоверности представленных данных. Использование RACE позволяет провести объективную и количественную оценку, выявляя сильные и слабые стороны агента, а также определяя направления для дальнейшей оптимизации и улучшения его способности к проведению самостоятельных исследований. В рамках данной работы, RACE служила ключевым инструментом для валидации разработанной системы и демонстрации ее преимуществ перед базовыми моделями.

Разработанный ProductResearch фреймворк продемонстрировал существенное повышение эффективности модели Qwen3-30B-A3B, что подтверждается увеличением общего балла RACE с 31.78 до 45.40. Данный показатель, основанный на комплексной рубричной оценке качества исследовательских отчетов, свидетельствует о значительных улучшениях по всем оцениваемым параметрам. Повышение не ограничивается общим результатом, а проявляется в более глубоком анализе, структурированности и релевантности генерируемых данных, что позволяет автоматизированному агенту создавать отчеты, сопоставимые по качеству с результатами, полученными человеком. Успешное применение фреймворка подтверждает перспективность автоматизации исследовательских процессов и открывает возможности для дальнейшей оптимизации и расширения функциональности.

В ходе оценки работы обученного агента для проведения исследований было отмечено значительное увеличение показателя “Эффективного охвата продукта”. Этот параметр, отражающий глубину и полноту анализа рассматриваемой продукции, вырос втрое — с 3.58 до 12.45. Такой существенный прирост свидетельствует о том, что разработанная система ProductResearch не только генерирует более развернутые исследовательские отчеты, но и способна охватить значительно больший спектр аспектов, связанных с продуктом, предоставляя более полную и всестороннюю информацию для принятия обоснованных решений.

Разработанная система демонстрирует существенный прогресс в автоматизации исследований благодаря способности генерировать сложные, долгосрочные планы. В отличие от традиционных подходов, которые часто ограничены последовательным выполнением простых задач, данная система способна самостоятельно разрабатывать многоэтапные исследовательские стратегии. Это включает в себя определение ключевых вопросов, поиск релевантной информации из различных источников, синтез полученных данных и формирование обоснованных выводов — все это без непосредственного участия человека. Такая способность к планированию на несколько шагов вперед позволяет системе эффективно решать сложные исследовательские задачи, требующие глубокого анализа и критического мышления, открывая новые возможности для автоматизации научных исследований и разработки инновационных решений.

Перспективы развития данной исследовательской платформы связаны с расширением её применимости к более сложным областям знаний. Планируется интеграция с базами данных и специализированными источниками информации, требующими глубокого анализа и синтеза. Особое внимание будет уделено механизмам сбора и учета отзывов пользователей, что позволит непрерывно совершенствовать алгоритмы и адаптировать систему к индивидуальным потребностям исследователей. Такой подход обеспечит не только повышение эффективности автоматизированного поиска и анализа, но и формирование интеллектуальной системы, способной к самообучению и адаптации к новым вызовам в сфере научных исследований.

Результаты на наборе данных RACE показывают, что увеличение длины контекста обучения положительно влияет на производительность модели.

Исследование, представленное в данной работе, демонстрирует стремление к созданию надежных и эффективных агентов для глубокого анализа данных в электронной коммерции. Авторы фокусируются на генерации синтетических данных для обучения этих агентов, что позволяет обойти ограничения, связанные с нехваткой размеченных данных. Этот подход перекликается с мыслями Роберта Тарьяна: «Любая программа должна быть правильной, а не просто работать». В данном контексте, «правильность» агента определяется его способностью к точному и последовательному анализу, что достигается за счет обучения на тщательно сгенерированных синтетических траекториях. Акцент на строгости и непротиворечивости в обучении, как и в математических доказательствах, обеспечивает надежность и предсказуемость агента, даже в условиях меняющихся данных.

Что дальше?

Представленная работа, безусловно, демонстрирует возможность искусственного наращивания навыков исследования электронной коммерции посредством дистилляции синтетических траекторий. Однако, необходимо признать, что само понятие «успешного исследования» остаётся несколько размытым. Достаточно ли простого извлечения характеристик продукта? Или истинная ценность заключается в выявлении неочевидных взаимосвязей и предсказании будущих тенденций? Текущий подход, хотя и эффективен в рамках поставленных задач, не решает проблему общей интеллектуальной гибкости агентов.

Следующим шагом видится не просто увеличение объёма синтетических данных, а разработка более сложных моделей, способных к самообучению и адаптации к изменяющимся условиям рынка. Необходимо отойти от принципа «обучение на примерах» и стремиться к созданию агентов, способных к самостоятельному формулированию гипотез и проверке их на практике. Иначе говоря, требуются агенты, обладающие не просто способностью «находить информацию», а способностью к критическому мышлению.

В конечном счёте, истинный прогресс в данной области будет достигнут лишь тогда, когда мы сможем создать агентов, способных не просто имитировать человеческое поведение, а превосходить его в задачах анализа и прогнозирования. Это, конечно, амбициозная цель, но, как известно, только чётко сформулированная задача позволяет найти элегантное и математически строгое решение.

Оригинал статьи: https://arxiv.org/pdf/2602.23716.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-02 18:06