Торги будущего: Искусственный интеллект на стороне покупателя и продавца

Автор: Денис Аветисян


Новая платформа AgenticPay позволяет оценить возможности языковых моделей в сложных переговорах между искусственными агентами, выявляя существенные различия в эффективности закрытых и открытых моделей.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал
Агенты в системе AgenticPay взаимодействуют в различных режимах переговоров - от двусторонних до многосторонних, формируя рынки сопоставления и демонстрируя многораундовый процесс обмена, где требования пользователя и диалог между покупателем и продавцом приводят к заключению сделки.
Агенты в системе AgenticPay взаимодействуют в различных режимах переговоров — от двусторонних до многосторонних, формируя рынки сопоставления и демонстрируя многораундовый процесс обмена, где требования пользователя и диалог между покупателем и продавцом приводят к заключению сделки.

Исследование представляет AgenticPay — эталонную систему и симулятор для оценки LLM-агентов в многоагентных сценариях купли-продажи.

Несмотря на растущий интерес к автономным агентам, основанным на больших языковых моделях (LLM), оценка их способности к ведению сложных переговоров в многоагентных средах остается сложной задачей. В данной работе представлена система ‘AgenticPay: A Multi-Agent LLM Negotiation System for Buyer-Seller Transactions’, — новый эталон и симуляционная платформа для исследования многоагентных переговоров между покупателями и продавцами на естественном языке. Анализ производительности современных проприетарных и открытых LLM выявил существенные различия в эффективности ведения переговоров и подчеркнул необходимость развития стратегического мышления в долгосрочной перспективе. Сможет ли AgenticPay стать надежной основой для изучения агентской коммерции и языкового взаимодействия на рынке?


Искусство переговоров: вызовы многоагентных систем

Традиционные модели ведения переговоров часто оказываются неэффективными при столкновении со сложностью реальных сценариев, включающих множество участников. Эти модели, как правило, базируются на упрощенных предположениях о рациональности и полной информации, что существенно отличается от динамичной и непредсказуемой природы многосторонних переговоров. В ситуациях, где каждый участник преследует собственные интересы и располагает неполной информацией о намерениях других, стандартные алгоритмы часто приводят к неоптимальным решениям или даже к полному провалу переговоров. Учет множества взаимодействующих факторов, таких как коалиции, репутация, и асимметричная информация, представляет собой серьезную вычислительную и теоретическую задачу, требующую разработки принципиально новых подходов к моделированию и решению.

Существующие подходы к многоагентным переговорам часто оказываются недостаточно чувствительными к конфиденциальной информации, которой обладает каждый участник, и к динамике коммуникации в процессе обсуждения. Традиционные модели, как правило, предполагают открытый обмен данными или упрощенные представления о намерениях оппонентов, что не позволяет адекватно учитывать стратегическое поведение и скрытые мотивы. В реальных сценариях, агенты могут намеренно утаивать часть информации, чтобы получить преимущество, или изменять свои предпочтения в зависимости от действий других участников. Отсутствие механизмов для обработки этой неопределенности и адаптации к меняющейся обстановке приводит к неоптимальным решениям и снижает вероятность достижения взаимовыгодных соглашений. Разработка более сложных моделей, способных учитывать частную информацию и динамическую коммуникацию, является ключевой задачей для повышения эффективности многоагентных переговоров.

Эффективные переговоры в условиях взаимодействия множества агентов требуют от каждого участника способности к пониманию намерений других сторон, адаптации к постоянно меняющейся обстановке и достижению взаимовыгодных результатов. Исследования показывают, что успешные стратегии опираются не только на рациональный анализ предложений, но и на способность интерпретировать невербальные сигналы и прогнозировать дальнейшие действия оппонентов. Важным аспектом является умение находить компромиссы, которые максимизируют общую выгоду, даже если это требует уступок в краткосрочной перспективе. Агенты, способные к гибкому реагированию на новые обстоятельства и пересмотру своих целей, демонстрируют более высокую эффективность в достижении устойчивых соглашений, что подтверждается как теоретическими моделями, так и практическими экспериментами в области искусственного интеллекта и экономики.

Набор AgenticPaytask представляет собой десять реалистичных бизнес-сценариев, классифицированных по четырем категориям (потребительские товары, услуги, поставки и активы) и демонстрирует увеличение сложности задач - от двусторонних переговоров до полноценных рыночных условий - за счет увеличения количества покупателей, продавцов и разнообразия предлагаемых продуктов.
Набор AgenticPaytask представляет собой десять реалистичных бизнес-сценариев, классифицированных по четырем категориям (потребительские товары, услуги, поставки и активы) и демонстрирует увеличение сложности задач — от двусторонних переговоров до полноценных рыночных условий — за счет увеличения количества покупателей, продавцов и разнообразия предлагаемых продуктов.

AgenticPay: Эталон для оценки LLM в переговорах

Платформа AgenticPay предоставляет стандартизированную среду для оценки LLM-агентов в сценариях многоагентных переговоров, охватывающих как простые двусторонние сделки, так и сложные многосторонние рынки. Она позволяет проводить систематическое тестирование производительности агентов в различных конфигурациях, варьируя количество участников и сложность решаемых задач. Это обеспечивает возможность количественно оценить эффективность различных LLM-моделей в контексте взаимодействия с другими агентами и достижения оптимальных результатов в процессе переговоров. Среда поддерживает моделирование как конкурентных, так и кооперативных сценариев, что делает ее универсальным инструментом для исследования и разработки агентов, способных эффективно вести переговоры в различных экономических и социальных контекстах.

В основе AgenticPay лежит использование технологий обработки естественного языка (NLP) для обеспечения взаимодействия между агентами. Это включает в себя как понимание естественного языка, используемого для передачи предложений и запросов, так и разбор действий, выполняемых агентами на основе полученных сообщений. Платформа использует NLP для извлечения намерений из текстовых сообщений, определения релевантных параметров сделки и преобразования этих данных в структурированные команды, которые могут быть исполнены агентами. Помимо этого, NLP применяется для генерации ответов агентов, обеспечивая когерентность и логичность коммуникации в процессе переговоров.

Платформа AgenticPay обеспечивает систематическое увеличение сложности решаемых задач, что позволяет проводить детальный анализ производительности LLM-агентов в различных условиях. Масштабирование осуществляется путем варьирования числа участников в переговорах — от простых двусторонних сделок до сложных многосторонних рынков — а также путем изменения сложности условий сделки и объема доступной информации. Это позволяет оценить, как агенты адаптируются к возрастающей когнитивной нагрузке и неопределенности, выявляя сильные и слабые стороны различных архитектур и стратегий обучения. Полученные данные позволяют проводить более точное сравнение различных LLM-агентов и определять оптимальные подходы к разработке систем ведения переговоров.

Оценка LLM с помощью AgenticPay: надежные метрики

Платформа AgenticPay использует надежные метрики оценки эффективности LLM-агентов, включающие в себя оценку достижимости сделки (deal feasibility), эффективности процесса переговоров и общего благосостояния (welfare) участников. Достижимость сделки определяет, насколько предложенное соглашение реалистично и соответствует заданным ограничениям. Эффективность оценивается по количеству раундов переговоров, необходимых для достижения соглашения. Показатель благосостояния отражает суммарную выгоду, полученную обеими сторонами в результате сделки. Использование этих метрик позволяет проводить объективное сравнение различных LLM-агентов в задачах ведения переговоров и выявлять наиболее эффективные модели.

В рамках оценки AgenticPay были протестированы различные большие языковые модели (LLM), включая GPT-5.2, Claude Opus 4.5, Gemini 3 Flash, Qwen3-14B и Llama-3.1-8B. Данный набор моделей позволяет провести сравнительный анализ производительности в задачах, требующих ведения переговоров и принятия решений. Использование моделей с разной архитектурой и количеством параметров обеспечивает более полное понимание сильных и слабых сторон каждого подхода, а также выявляет наиболее перспективные направления для дальнейших исследований и оптимизаций в области агентных систем на базе LLM.

В рамках AgenticPay, оценка производительности LLM-агентов осуществляется с учетом ключевых элементов переговорного процесса. Система моделирует роли покупателя и продавца, четко определяя их задачи и ограничения. Важным аспектом является строгое следование определенному переговорному протоколу, включающему последовательность действий, допустимые стратегии и критерии достижения соглашения. Это обеспечивает стандартизированную среду для сравнения различных LLM, позволяя объективно оценить их способность к эффективному ведению переговоров и достижению взаимовыгодных результатов в условиях заданных правил.

В ходе оценки производительности LLM-агентов с использованием AgenticPay, Claude Opus 4.5 продемонстрировал наивысший комплексный показатель (GlobalScore) в 86.9 баллов при решении сложных переговорных задач. Для сравнения, Qwen3-14B получил показатель 63.9, а Llama-3.1-8B — всего 32.5. Данные результаты указывают на значительное превосходство Claude Opus 4.5 в эффективности ведения переговоров по сравнению с протестированными моделями, что подтверждается более высоким итоговым баллом по совокупности метрик, учитывающих достижимость сделки, эффективность и благосостояние сторон.

В ходе тестирования в рамках AgenticPay, Claude Opus 4.5 продемонстрировал исключительную стабильность работы, не зафиксировав случаев превышения времени ожидания (timeout rate 0%). Для сравнения, у модели Qwen3-14B данный показатель составил 20.7%, а у Llama-3.1-8B — 48.6%. Это свидетельствует о значительно более высокой надежности Claude Opus 4.5 при выполнении сложных переговорных задач и способности модели успешно завершать процессы в установленные временные рамки, в отличие от протестированных альтернатив.

В рамках тестирования AgenticPay, переговоры с использованием модели Claude Opus 4.5 демонстрируют существенно более высокую эффективность по сравнению с Llama-3.1-8B. Среднее количество раундов, необходимых для завершения переговоров с Claude Opus 4.5, составляет 3.7, что значительно ниже, чем 15.0 раундов, необходимых для Llama-3.1-8B. Данный показатель свидетельствует о способности Claude Opus 4.5 быстрее достигать соглашений, потенциально снижая операционные издержки и повышая пропускную способность в сценариях автоматизированных переговоров.

Влияние и перспективы: за пределами простого обмена информацией

Исследование AgenticPay подчеркивает критическую роль учета конфиденциальной информации и истории диалога при использовании больших языковых моделей (LLM) в процессе переговоров. Результаты демонстрируют, что LLM, наделенные способностью анализировать скрытые предпочтения и предыдущие реплики оппонента, значительно превосходят своих «собеседников», лишенных подобной возможности. Способность учитывать индивидуальные особенности и контекст беседы позволяет LLM разрабатывать более эффективные стратегии, адаптироваться к меняющимся условиям и, как следствие, достигать более выгодных соглашений. Игнорирование этих факторов приводит к неоптимальным результатам и снижает эффективность LLM в роли переговорщика, что указывает на необходимость дальнейшей разработки моделей, способных к глубокому анализу и пониманию нюансов человеческого общения.

Исследование показывает, что способность языковых моделей к ведению переговоров напрямую зависит от понимания текущей рыночной ситуации. Адаптация к меняющимся условиям, таким как спрос и предложение, уровень конкуренции и даже психологическое состояние оппонента, является ключевым фактором для создания надежных переговорщиков на базе искусственного интеллекта. Модели, которые не учитывают контекст, склонны к неоптимальным решениям и могут упустить возможности для достижения взаимовыгодных соглашений. Таким образом, разработка алгоритмов, способных динамически оценивать и реагировать на изменения рыночной среды, является необходимым шагом для повышения эффективности и реалистичности LLM-агентов в процессе переговоров.

Перспективные исследования в области языковых моделей, предназначенных для ведения переговоров, должны быть сосредоточены на развитии способности к пониманию намерений оппонента и прогнозированию его стратегий. В динамичных переговорных средах, где условия постоянно меняются, особенно важно, чтобы модели могли не просто реагировать на текущую ситуацию, но и предвидеть возможные ходы соперника, адаптируя свою тактику для достижения взаимовыгодных результатов. Разработка алгоритмов, позволяющих моделям эффективно рассуждать о мотивах и целях другой стороны, станет ключом к созданию переговорщиков, способных к долгосрочному сотрудничеству и оптимальному разрешению конфликтов, выходя за рамки простого обмена информацией и приближаясь к пониманию истинных потребностей участников процесса.

Исследование, представленное в данной работе, демонстрирует, что даже самые передовые языковые модели не всегда способны эффективно взаимодействовать в сложных экономических сценариях. Стремление к усложнению алгоритмов, к созданию “фреймворков”, призванных скрыть недостаток стратегического мышления, часто приводит к обратному результату. Как однажды заметил Роберт Таржан: «Простота — это высшая степень совершенства». В контексте AgenticPay, эта фраза приобретает особую актуальность: оценка LLM-агентов в переговорах требует не усложнения модели, а её способности к ясной и эффективной коммуникации и принятию решений, что особенно важно при оценке разрыва в производительности между проприетарными и открытыми моделями.

Что дальше?

Представленная работа, несмотря на свою кажущуюся конкретность, лишь обнажает глубину нерешенных вопросов. Автоматизация переговоров, особенно в многоагентной среде, требует не просто имитации языковых конструкций, но и подлинного понимания экономических стимулов. Сравнительный анализ закрытых и открытых моделей демонстрирует, что производительность — это не вопрос масштаба, а вопрос архитектурной элегантности. Избыточность параметров не компенсирует недостаток логической строгости.

Будущие исследования должны сместить фокус с количественных метрик на качественную оценку стратегий. Необходимо разработать инструменты для выявления и устранения когнитивных искажений в поведении агентов, а также для обеспечения прозрачности и предсказуемости их действий. Иллюзия разумности — опасна; необходима верифицируемая рациональность.

В конечном итоге, подлинный прогресс в области многоагентных переговоров будет достигнут не за счет усложнения систем, а за счет их упрощения. Простота — не ограничение, а свидетельство глубокого понимания. Задача заключается не в создании искусственного интеллекта, способного обманывать, а в разработке систем, способных к честному и взаимовыгодному сотрудничеству.


Оригинал статьи: https://arxiv.org/pdf/2602.06008.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-08 18:57