Самообучающиеся агенты для умной организации товарных каталогов

Автор: Денис Аветисян


Новая архитектура на базе искусственного интеллекта позволяет автоматически создавать структурированные базы знаний о продуктах, извлекая информацию из неструктурированного текста.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
Автоматизированный рабочий процесс, основанный на агентах, включает в себя создание, уточнение онтологии и наполнение базы знаний, причём каждый этап осуществляется специализированным агентом на базе больших языковых моделей, функционирующим в модульной схеме.
Автоматизированный рабочий процесс, основанный на агентах, включает в себя создание, уточнение онтологии и наполнение базы знаний, причём каждый этап осуществляется специализированным агентом на базе больших языковых моделей, функционирующим в модульной схеме.

Представлена AI-ориентированная платформа для автоматического построения графов знаний о товарах в электронной коммерции и ритейле.

Неструктурированные данные о товарах, генерируемые платформами электронной коммерции, представляют собой серьезную проблему для эффективного поиска, рекомендаций и анализа. В данной работе, посвященной разработке ‘AI Agent-Driven Framework for Automated Product Knowledge Graph Construction in E-Commerce’, предложен полностью автоматизированный подход к построению графов знаний о продуктах непосредственно из текстовых описаний. Метод использует агентов на базе больших языковых моделей для создания, уточнения онтологии и последующего заполнения графа знаний, обеспечивая семантическую согласованность и масштабируемость без необходимости ручного создания схем. Сможет ли предложенный фреймворк стать стандартом автоматизированной интеграции и использования товарных данных в ритейле?


Вызов данных о продуктах: сложность и ясность

Современные платформы электронной коммерции сталкиваются с серьезной проблемой – разрозненностью данных о товарах, что негативно сказывается на эффективности поиска и персонализации предложений. Информация о продуктах часто хранится в различных системах, базах данных и форматах, что затрудняет создание единой и полной картины. В результате, пользователи получают нерелевантные результаты при поиске, а алгоритмы персонализации не могут эффективно рекомендовать товары, соответствующие их потребностям и предпочтениям. Эта фрагментация данных приводит к снижению конверсии, уменьшению лояльности клиентов и упущенным возможностям для бизнеса. Поэтому создание единого, структурированного и актуального представления о товарах является критически важной задачей для успешной работы интернет-магазинов.

Традиционные методы интеграции данных, такие как ETL-процессы и реляционные базы данных, часто оказываются неэффективными при работе с обширными каталогами товаров. Эти подходы ориентированы на структурированное хранение данных, но не способны уловить сложные семантические связи между продуктами – например, взаимозаменяемость, совместимость или принадлежность к определенной категории по функциональному назначению, а не только по формальным признакам. В результате, системы не могут эффективно понимать контекст и потребности покупателей, что приводит к неточным результатам поиска и ограниченным возможностям персонализации. Попытки применить жестко заданные схемы к постоянно меняющимся данным о товарах приводят к хрупкости системы, требуя постоянного ручного вмешательства и корректировок, что значительно увеличивает затраты и замедляет адаптацию к рыночным изменениям.

Современные электронные каталоги товаров насчитывают миллионы наименований, и ручная обработка таких объемов информации становится невозможной задачей. Автоматизированные методы извлечения знаний и организации данных становятся не просто желательными, а абсолютно необходимыми для эффективного управления ассортиментом. Эти подходы, использующие алгоритмы машинного обучения и обработки естественного языка, позволяют идентифицировать ключевые характеристики товаров, устанавливать связи между ними и формировать структурированное представление о продуктах. Такая автоматизация значительно сокращает затраты времени и ресурсов, позволяя компаниям оперативно реагировать на изменения рынка и предлагать клиентам наиболее релевантные товары, а также создавать новые возможности для анализа данных и инноваций в сфере электронной коммерции.

Отсутствие целостного представления о продуктах существенно ограничивает возможности компаний для внедрения инноваций и улучшения клиентского опыта. Разрозненные данные о характеристиках, применении и взаимосвязях между товарами приводят к упущенным возможностям для создания персонализированных предложений и разработки новых продуктов, отвечающих потребностям клиентов. Компании, не способные эффективно объединить и анализировать информацию о продуктах, сталкиваются с трудностями в выявлении скрытых тенденций, оптимизации ассортимента и предоставлении релевантной информации покупателям. В конечном итоге, это приводит к снижению конкурентоспособности и упущенной прибыли, поскольку клиенты обращаются к компаниям, способным предложить более удобный и индивидуализированный подход.

Построение основы: онтологии продуктов и LLM

Чётко определенная продуктовая онтология является основой для структурированного представления типов продуктов, их характеристик и взаимосвязей. В нашей системе онтология содержит 42 класса, охватывающих различные категории продуктов, и 69 свойств, детализирующих их атрибуты и отношения. Из этих 69 свойств, 20 являются атрибутами данных, непосредственно описывающими характеристики продукта (например, цвет, размер, вес), а 49 представляют собой объектные отношения, определяющие связи между продуктами и другими сущностями в системе (например, «является частью», «совместим с»). Такая стандартизация позволяет обеспечить согласованность и эффективность обработки информации о продуктах, а также облегчает интеграцию с другими системами и приложениями.

Большие языковые модели (БЯМ) автоматизируют процесс создания онтологий путём извлечения семантической информации из неструктурированных текстовых данных. Этот процесс включает в себя анализ текста для идентификации сущностей, атрибутов и связей между ними, что позволяет БЯМ формировать структурированное представление знаний о продуктах. Извлечённая информация затем используется для автоматического построения классов, свойств и отношений в онтологии, значительно сокращая время и усилия, необходимые для ручного создания и поддержки базы знаний о продуктах. В частности, БЯМ способны выявлять скрытые связи и закономерности в тексте, которые могли бы быть упущены при ручном анализе, что повышает точность и полноту онтологии.

Фреймворк “Извлечение-Определение-Канонизация” представляет собой структурированный подход к извлечению знаний из неструктурированных данных и их последующей интеграции в единую схему. На этапе извлечения используются методы обработки естественного языка для выявления ключевых сущностей и связей в текстовых данных. Определение включает в себя формализацию этих сущностей и связей в виде классов и свойств, соответствующих предметной области. Наконец, канонизация обеспечивает приведение различных представлений одних и тех же сущностей к единому, стандартизированному формату, что необходимо для обеспечения согласованности и возможности автоматической обработки данных. Такой подход позволяет автоматизировать создание и поддержание продуктовых онтологий, обеспечивая их точность и полноту.

В основе автоматизированного создания и расширения продуктовых онтологий лежат большие языковые модели (LLM), такие как ChatGPT 4.1 Mini. Эти модели обучаются на существующем объеме данных о продуктах, включая описания, спецификации и отзывы пользователей. В процессе обучения LLM выявляют закономерности и семантические связи, что позволяет им экстраполировать полученные знания на новые, ранее не встречавшиеся данные о продуктах. Это обеспечивает возможность автоматического определения типов продуктов, атрибутов и взаимосвязей между ними, значительно ускоряя процесс построения и поддержания актуальности продуктовых онтологий.

Автоматическое заполнение графа знаний

Процесс автоматического наполнения графа знаний осуществляется посредством интеллектуальных агентов, которые автоматизируют извлечение и связывание данных о продуктах. Эти агенты координируют различные этапы, включая сбор информации из различных источников, ее структурирование и преобразование в формат, пригодный для представления в графе знаний. Автоматизация позволяет значительно сократить время и ресурсы, необходимые для создания и поддержания актуальности графа знаний, а также повысить точность и согласованность данных. В ходе реализации данного подхода было сгенерировано 7,459 RDF-троек, представляющих детали и взаимосвязи продуктов.

Агенты искусственного интеллекта использовали большие языковые модели (LLM) для генерации RDF-троек, представляющих детали и взаимосвязи продуктов. В процессе было сгенерировано в общей сложности 7 459 RDF-троек. Каждая тройка состоит из субъекта, предиката и объекта, что позволяет структурированно представить информацию о продуктах и их атрибутах в виде графа знаний. Этот процесс автоматической генерации троек является ключевым компонентом для построения и наполнения графа знаний продуктами.

Методы, такие как iText2KG и CodeKGC, повышают точность извлечения данных за счет использования обучения без учителя (zero-shot learning) и промптов, учитывающих схему данных. Обучение без учителя позволяет агентам извлекать информацию о продуктах без предварительной тренировки на размеченных данных, используя лишь общее понимание языка. Промпты, разработанные с учетом схемы знаний (например, определение типов сущностей и связей), направляют процесс извлечения, обеспечивая соответствие извлекаемых данных структуре графа знаний и уменьшая количество ошибок. Такой подход позволяет эффективно извлекать структурированную информацию из неструктурированных текстовых описаний продуктов.

Для обработки и манипулирования данными в формате RDF использовалась библиотека RDFLib, что позволило обеспечить целостность и согласованность полученных данных. В ходе экспериментов было успешно обработано 282 из 291 описания продуктов, что составляет 97% успешности. Данный показатель демонстрирует высокую эффективность используемого инструментария для автоматизированного заполнения графа знаний, а также надежность процесса извлечения и преобразования данных из текстовых описаний в структурированный формат RDF.

Усиление рассуждений с помощью обучения с подсказками

Метод обучения с подсказками, представленный подходами KG-ICL и PromptKG, позволяет в полной мере раскрыть возможности больших языковых моделей (LLM) при работе с графами знаний. Эти техники объединяют обучение в контексте с графами подсказок, что значительно повышает эффективность рассуждений и логических выводов. Вместо традиционного обучения на больших объемах данных, модели получают небольшое количество примеров, сформулированных в виде подсказок, которые направляют их к правильному решению. Такой подход позволяет LLM не только извлекать информацию из графов знаний, но и устанавливать сложные связи между различными сущностями и атрибутами, открывая новые перспективы для анализа данных и интеллектуальных приложений.

Современные языковые модели демонстрируют значительный потенциал в решении сложных задач, однако их эффективность напрямую зависит от способности к рассуждению и выводам. Техники, объединяющие обучение с примерами (in-context learning) и графы подсказок (prompt graphs), позволяют существенно улучшить эти возможности. Вместо простого предоставления модели входных данных, создаются структурированные подсказки, представляющие собой сеть взаимосвязанных фактов и логических связей. Этот подход позволяет модели не просто «запоминать» ответы, но и активно «рассуждать», выстраивая логические цепочки и делая обоснованные выводы на основе предоставленной информации. Такое комбинирование методов открывает новые горизонты в решении задач, требующих глубокого понимания контекста и способности к сложным умозаключениям, значительно повышая точность и надежность результатов.

Тщательно разработанные запросы, или промпты, позволяют большим языковым моделям (LLM) демонстрировать повышенную точность при выполнении сложных задач, таких как рекомендация товаров и извлечение атрибутов. Этот подход предполагает не просто предоставление модели информации, а структурирование запроса таким образом, чтобы направить процесс рассуждений и выделить наиболее релевантные аспекты данных. Например, при рекомендации товаров, промпт может включать описание предпочтений пользователя, характеристики продукта и контекст предыдущих покупок, что позволяет модели генерировать более точные и персонализированные предложения. Аналогично, при извлечении атрибутов, промпт может четко указывать, какие конкретно характеристики необходимо выделить из текста, минимизируя ошибки и обеспечивая более полное и структурированное представление информации. В результате, грамотно сформулированные промпты становятся ключевым фактором, раскрывающим потенциал LLM для решения реальных бизнес-задач и улучшения пользовательского опыта.

Улучшенные возможности логического мышления, обеспечиваемые современными языковыми моделями, напрямую влияют на качество взаимодействия с клиентами и, как следствие, на рост бизнеса. Способность моделей к более точному анализу данных и выводу закономерностей позволяет предлагать персонализированные рекомендации, более эффективно решать возникающие вопросы и предоставлять более релевантную информацию. Это, в свою очередь, способствует повышению лояльности клиентов, увеличению среднего чека и привлечению новых пользователей. Например, в сфере электронной коммерции, точное извлечение характеристик товаров и построение логичных цепочек предложений значительно улучшают процесс поиска и принятия решений покупателями. Таким образом, инвестиции в развитие способности моделей к рассуждениям окупаются за счет повышения удовлетворенности клиентов и, в конечном итоге, увеличения прибыли.

Проверка и совершенствование качества графа знаний

Оценка качества и полноты графа знаний осуществляется посредством таких метрик, как «Качество онтологии» и «Покрытие онтологии». Эти показатели позволяют определить, насколько последовательно и всесторонне представлен предметный домен в графе. В ходе работы удалось достичь 97.1% покрытия свойств онтологии в сформированном графе знаний, что свидетельствует о высокой степени детализации и охвата ключевых характеристик продуктов. Данный результат подтверждает эффективность используемых методов построения и обогащения графа знаний, обеспечивая надежную основу для последующего анализа и применения в различных задачах, например, для улучшения рекомендательных систем или автоматизации процессов поиска и классификации.

Постоянный мониторинг и усовершенствование имеют решающее значение для поддержания точности данных и адаптации к изменяющимся каталогам продукции. В условиях динамичного рынка, где ассортимент товаров постоянно обновляется и меняется, статичный подход к формированию графа знаний быстро устаревает. Регулярная проверка связей между сущностями, выявление и исправление неточностей, а также добавление новых данных, отражающих текущие изменения в каталоге, обеспечивают актуальность и надежность информации. Этот непрерывный процесс позволяет графу знаний оставаться ценным инструментом для анализа данных, улучшения поиска и предоставления персонализированных рекомендаций пользователям, гарантируя, что система всегда оперирует наиболее достоверными и полными сведениями о доступных продуктах.

Для повышения качества графа знаний активно применялась комбинация методов дистанционного обучения и ручной аннотации. Дистанционное обучение позволило автоматически извлекать знания из больших объемов неструктурированных данных, в то время как аннотация, выполненная экспертами, обеспечила высокую точность и надежность полученных связей. Такой подход позволил существенно улучшить семантическую согласованность и полноту графа знаний, выявляя и корректируя неточности, которые могли бы возникнуть при автоматической обработке. В результате, интеграция этих методов привела к созданию более информативной и полезной базы знаний, способной поддерживать сложные аналитические задачи и предоставлять более релевантные результаты поиска.

Дальнейшие исследования направлены на расширение масштаба применяемых методов для обработки значительно более крупных каталогов продукции и интеграцию с потоками данных в режиме реального времени. В ходе текущих испытаний продемонстрирована высокая эффективность подхода, с уровнем ошибок, составившим всего 3% – зафиксировано 9 неудачных из 291 обработанных описаний товаров. Это указывает на перспективность использования данных технологий для автоматического поддержания актуальности и полноты графов знаний даже при быстро меняющемся ассортименте и больших объемах информации, что является ключевым для обеспечения точности и релевантности результатов поиска и рекомендаций.

Представленная работа демонстрирует стремление к упрощению сложного процесса создания графов знаний для электронной коммерции. Автоматизация построения онтологий, осуществляемая посредством многоагентной системы, позволяет избежать избыточности и сосредоточиться на наиболее релевантной информации о продуктах. Это соответствует принципу плотности смысла – новому минимализму, где каждое звено графа знаний несет существенную нагрузку. Как отмечал Эдсгер Дейкстра: «Простота – это высшая степень совершенства». Данное исследование подтверждает эту мысль, показывая, что элегантное решение, освобожденное от ненужных деталей, является наиболее эффективным и масштабируемым для задач извлечения знаний в сфере электронной торговли.

Что дальше?

Представленная работа, хоть и демонстрирует автоматизацию построения графов знаний для электронной коммерции, лишь слегка отодвигает завесу над истинной сложностью предметной области. Автоматизация, как показывает опыт, редко является полной. Вопрос о валидации извлеченных знаний и разрешении семантических конфликтов остается открытым. Простое извлечение сущностей и отношений – это лишь отправная точка; истинная ценность заключается в возможности логического вывода и обнаружения неочевидных связей, что требует значительно более глубокой интеграции с механизмами рассуждений.

Упор на агентов, управляемых большими языковыми моделями, неизбежно сталкивается с проблемой «черного ящика». Прозрачность процесса принятия решений критически важна, особенно в контексте электронной коммерции, где точность и надежность информации напрямую влияют на потребительский опыт. Необходимо разработать методы, позволяющие не только извлекать знания, но и объяснять, почему те или иные знания были извлечены, и какие факторы повлияли на этот процесс.

В конечном счете, построение графов знаний – это не технологическая, а философская задача. Мы пытаемся формализовать и структурировать хаотичный мир информации, и эта попытка всегда будет неполной и несовершенной. Следующим шагом видится не столько улучшение алгоритмов, сколько переосмысление самой концепции знания и его репрезентации.


Оригинал статьи: https://arxiv.org/pdf/2511.11017.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-17 21:20