Долгосрочная память для разумных агентов: новый эталон

Автор: Денис Аветисян

Исследователи представили AMA-Bench, комплексный инструмент для оценки способности агентов сохранять и использовать информацию на протяжении длительных взаимодействий.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Формализация системы памяти и её возможностей позволяет создавать агентов, способных к целенаправленным действиям и сложным вычислениям, что открывает путь к созданию искусственного интеллекта, способного к автономному обучению и адаптации к изменяющимся условиям.

Представлен новый эталон AMA-Bench и система памяти AMA-Agent, использующая графы причинно-следственных связей и расширенный поиск для улучшения долгосрочного рассуждения в агентах на основе больших языковых моделей.

Несмотря на растущее применение больших языковых моделей (LLM) в качестве автономных агентов, существующие методы оценки их долговременной памяти не отражают реальных сценариев взаимодействия с окружающей средой. В данной работе, ‘AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications’, представлен новый бенчмарк AMA-Bench, предназначенный для оценки долговременной памяти LLM в контексте агентических приложений, и предложена система AMA-Agent, использующая граф причинно-следственных связей и расширенный поиск для улучшения рассуждений на больших горизонтах. Эксперименты показали, что AMA-Agent превосходит существующие системы на 11.16% в среднем, демонстрируя значительный прогресс в решении проблемы долговременной памяти агентов. Сможем ли мы создать действительно автономных агентов, способных к сложным рассуждениям и планированию в динамичной среде?

Память как Основа Автономного Интеллекта

Современные большие языковые модели (БЯМ) стремительно эволюционируют, выходя за рамки простых чат-ботов и превращаясь в полноценных автономных агентов. Этот переход требует принципиально новых подходов к организации памяти. Если ранее БЯМ использовали память преимущественно для генерации последовательного текста в ответ на запрос, то теперь им необходимо сохранять и эффективно использовать информацию о взаимодействиях, целях и состоянии окружающей среды на протяжении длительных периодов времени. Подобная “долгосрочная” память необходима для планирования сложных задач, адаптации к меняющимся обстоятельствам и принятия обоснованных решений, что делает развитие надежных систем памяти ключевым фактором в создании действительно автономных агентов, способных к самообучению и решению сложных проблем.

Традиционные методы управления контекстом в автономных агентах сталкиваются с существенными ограничениями при длительных взаимодействиях. С ростом сложности задач и необходимостью планирования на горизонте многих шагов, стандартные подходы, такие как простое накопление истории сообщений, оказываются неэффективными. По мере увеличения длины контекста, агенты испытывают трудности с извлечением релевантной информации, что приводит к ошибкам в рассуждениях и неспособности эффективно выполнять сложные задачи. Эта “бутылочное горлышко” памяти становится особенно заметной в сценариях, требующих долгосрочного планирования и адаптации к изменяющимся обстоятельствам, где даже незначительные упущения в контексте могут привести к существенным последствиям. В результате, для создания действительно автономных агентов необходимо разработать принципиально новые методы управления контекстом, способные эффективно сохранять и использовать релевантную информацию на протяжении длительных взаимодействий.

Несмотря на впечатляющий прогресс в масштабировании больших языковых моделей (LLM), становится очевидным, что одного лишь увеличения их размера недостаточно для создания по-настоящему автономных агентов. Проблема заключается не только в объеме знаний, но и в способе его организации и использования. Традиционные подходы к управлению информацией, основанные на последовательном хранении и извлечении данных, не способны эффективно справляться с возрастающей сложностью и длительностью взаимодействий. Требуется принципиально новый подход, позволяющий агентам не просто запоминать факты, но и структурировать знания, выявлять закономерности, абстрагироваться от несущественной информации и адаптироваться к меняющимся обстоятельствам. Разработка таких систем подразумевает отход от пассивного хранения данных к активному управлению знаниями, что, в свою очередь, потребует интеграции LLM с более сложными архитектурами памяти и механизмами рассуждений.

Траектории агентов отличаются от траекторий в задачах рассуждения и чат-ботов, демонстрируя причинно-следственную связь, разнообразие символических артефактов и высокую плотность целевой информации.

AMA-Agent: Архитектура Памяти для Разумных Агентов

AMA-Agent представляет собой комплексную структуру для управления памятью в агентах, ориентированную на эффективное сохранение и извлечение информации. Данный фреймворк обеспечивает не просто хранение данных, но и организацию информации таким образом, чтобы она была доступна для дальнейших рассуждений и принятия решений агентом. В основе лежит принцип приоритезации релевантных данных, что позволяет агенту фокусироваться на наиболее важной информации и избегать перегрузки избыточными деталями. Реализация включает в себя механизмы для динамического обновления памяти, отсеивания устаревшей информации и оптимизации процессов поиска и извлечения, что обеспечивает масштабируемость и эффективность работы агента в различных сценариях.

В основе AMA-Agent лежит граф причинно-следственных связей (Causality Graph), который предназначен для сохранения объективной информации и зависимостей, возникающих в процессе взаимодействия агента с окружающей средой. Этот граф структурирует данные, фиксируя не только факты, но и связи между ними, позволяя агенту отслеживать последовательность событий и понимать, как определенные действия привели к конкретным результатам. Граф причинно-следственных связей формируется путем регистрации действий агента, полученных ответов и наблюдаемых изменений в среде, что обеспечивает возможность последующего анализа и применения полученных знаний для улучшения процесса принятия решений и планирования.

В отличие от методов простой компрессии или поиска по сходству, AMA-Agent использует структурированные знания для улучшения контекста и рассуждений. Вместо хранения информации как последовательности токенов или векторов, AMA-Agent представляет знания в виде графа причинно-следственных связей. Это позволяет агенту не только извлекать релевантную информацию, но и понимать взаимосвязи между фактами, что критически важно для сложных задач, требующих логического вывода и планирования. Такой подход обеспечивает более надежное и эффективное использование памяти, особенно при работе с большими объемами данных и динамически меняющейся информацией.

Агент AMA преобразует траектории в структурированный граф причинности и использует поиск с расширением инструментами для эффективного извлечения информации.

AMA-Bench: Эталон для Оценки Систем Памяти Агентов

AMA-Bench представляет собой новый набор тестов, разработанный специально для оценки систем памяти в приложениях, ориентированных на агентов. В отличие от существующих бенчмарков, которые часто фокусируются на общих задачах обработки естественного языка, AMA-Bench акцентирует внимание на задачах, требующих от агента эффективного хранения и извлечения информации для достижения целей. Это достигается за счет создания набора данных, имитирующего сценарии взаимодействия агента с окружающей средой и требующего от системы памяти способности сохранять контекст и релевантную информацию на протяжении всей сессии. Бенчмарк предназначен для всесторонней оценки производительности различных подходов к управлению памятью в контексте сложных, интерактивных приложений.

Набор данных AMA-Bench состоит из двух основных частей: реального подмножества, содержащего пары вопросов и ответов, размеченные экспертами в предметной области, и синтетического подмножества, предназначенного для контролируемого масштабирования и оценки производительности систем памяти в различных условиях. Реальное подмножество обеспечивает оценку в условиях, приближенных к практическим задачам, в то время как синтетическое подмножество позволяет точно контролировать параметры, такие как объем данных и сложность вопросов, что необходимо для детального анализа и сравнения различных подходов к управлению памятью.

При тестировании на бенчмарке AMA-Bench, агент AMA-Agent показал среднюю точность 0.5722. Данный результат превосходит показатели сильного RAG-baseline, HippoRAG2 (0.4480), и лидирующего метода управления памятью, MemoRAG (0.4606). Эти данные демонстрируют, что AMA-Agent обеспечивает более высокую точность ответов в задачах, требующих работы с памятью, по сравнению с протестированными альтернативами в рамках данного бенчмарка.

Результаты модели на различных задачах из набора AMA-Bench демонстрируют её эффективность в широком спектре сценариев.

Расширение Возможностей Извлечения Информации с Помощью Гибридного Поиска

Система AMA-Agent применяет инновационный подход к извлечению информации, используя гибридный поиск с привлечением внешних инструментов. В отличие от традиционных методов, полагающихся исключительно на сопоставление ключевых слов, AMA-Agent динамически интегрирует специализированные утилиты для расширения и уточнения запросов. Этот процесс позволяет системе не просто находить документы, содержащие определенные термины, но и выполнять сложные операции, такие как вычисления, анализ данных или доступ к специализированным базам знаний. В результате, извлекаемая информация становится более полной, точной и релевантной для решения поставленной задачи, открывая новые возможности для автоматизированного анализа и обработки больших объемов данных.

В основе подхода, применяемого в AMA-Agent, лежит использование внешних инструментов для существенного повышения качества и релевантности извлекаемой информации. Вместо того, чтобы полагаться исключительно на внутренние знания или простые алгоритмы поиска, система обращается к специализированным ресурсам и сервисам. Это позволяет не только находить более точные ответы на сложные запросы, но и учитывать контекст и нюансы, которые могли бы быть упущены при традиционных методах. Благодаря интеграции с внешними инструментами, AMA-Agent способен динамически адаптироваться к различным типам данных и задачам, обеспечивая более полное и достоверное извлечение информации, что особенно важно для решения комплексных проблем и принятия обоснованных решений.

Результаты тестирования AMA-Agent на бенчмарке AMA-Bench продемонстрировали впечатляющий показатель Recall в 0.6238. Это свидетельствует о способности агента эффективно извлекать релевантную информацию даже из сложных и многокомпонентных запросов. Высокий показатель Recall указывает на то, что система способна находить значительную часть всей релевантной информации, минимизируя пропуски важных данных. Данный результат подтверждает эффективность предложенного подхода к информационному поиску и открывает перспективы для применения AMA-Agent в задачах, требующих точного и полного извлечения информации из больших объемов данных.

К Созданию Действительно Интеллектуальных Автономных Систем

Эффективное управление и использование памяти является ключевым фактором в создании по-настоящему интеллектуальных автономных систем. Способность агента сохранять, организовывать и извлекать релевантную информацию из прошлого опыта напрямую влияет на его способность адаптироваться к новым ситуациям, планировать сложные действия и эффективно решать задачи. Недостаточность памяти или неспособность к ее эффективному использованию ограничивает возможности агента, приводя к ошибкам, неоптимальным решениям и отсутствию гибкости. Разработка новых архитектур памяти и алгоритмов управления ею, способных обрабатывать большие объемы данных и поддерживать долгосрочное обучение, представляет собой важнейшую задачу в области искусственного интеллекта и робототехники. Именно поэтому исследования, направленные на оптимизацию памяти автономных агентов, имеют решающее значение для достижения настоящей интеллектуальности и создания систем, способных к самостоятельному обучению и решению сложных задач в динамично меняющейся среде.

Разработка действительно разумных автономных систем требует эффективного управления памятью, и в этом контексте AMA-Agent и AMA-Bench представляют собой значительный прорыв. Эти инструменты обеспечивают надежную платформу для дальнейших исследований, позволяя ученым создавать более устойчивые и масштабируемые архитектуры памяти. AMA-Bench, как эталон, позволяет объективно оценивать прогресс в этой области, а AMA-Agent демонстрирует перспективный подход к организации и использованию информации. Благодаря своей структуре, эти разработки способствуют не только улучшению производительности существующих систем, но и открывают новые возможности для создания принципиально новых, более интеллектуальных агентов, способных эффективно работать со сложными и объемными данными.

В рамках разработки интеллектуальных автономных систем, агент AMA-Agent продемонстрировал значительные успехи в управлении и использовании памяти, что подтверждается результатами тестирования на AMA-Bench. Агент достиг показателей в 0.6145 по направлению Каузальной Инференции, 0.5305 — по Обновлению Состояний, и 0.4719 — по Абстракции Состояний. Особого внимания заслуживает способность AMA-Agent сохранять высокую точность и стабильность работы даже при обработке последовательностей длиной до 128 тысяч токенов, что свидетельствует о перспективности данной архитектуры для решения сложных задач, требующих длительного контекста и эффективной обработки информации. Такие результаты открывают новые возможности для создания более надежных и масштабируемых автономных систем.

Результаты показывают, что увеличение масштаба базовой модели дает незначительный прирост производительности, в то время как выбор архитектуры памяти оказывает решающее влияние на общую эффективность.

Представленный труд демонстрирует стремление к математической строгости в области искусственного интеллекта, что находит отклик в словах Андрея Николаевича Колмогорова: «Математика — это искусство открывать закономерности в хаосе». AMA-Bench, как новый бенчмарк для оценки памяти агентов, и предложенная система AMA-Agent, использующая граф причинности, представляют собой попытку структурировать и формализовать процесс рассуждений в долгосрочных задачах. Подобный подход к созданию надежных систем искусственного интеллекта, основанный на принципах доказуемости и формальной логике, соответствует убеждению, что алгоритм должен быть не просто работоспособным, но и корректным по своей сути. Особое внимание к причинно-следственным связям, реализованное через граф причинности, подчеркивает важность анализа и понимания структуры задачи, а не просто оптимизации ее решения.

Куда Далее?

Представленный анализ памяти агентов, воплощённый в AMA-Bench, выявляет не столько технические недостатки, сколько фундаментальную сложность задачи долгосрочного рассуждения. Простое увеличение объёма извлекаемой информации не решает проблему; скорее, она лишь маскирует отсутствие истинной причинно-следственной связи в представлениях агента. Построение графа причинности, как предложено в AMA-Agent, является шагом в верном направлении, но его эффективность ограничена качеством исходных данных и способностью модели к абстракции.

Истинным вызовом остаётся создание систем, способных не просто «помнить» события, но и понимать их значение в контексте долгосрочных целей. Необходимо сместить фокус с извлечения фактов на построение доказуемых моделей мира, где каждое действие агента может быть обосновано с математической точностью. Пока же, существующие системы остаются хрупкими конструкциями, легко нарушаемыми даже незначительными отклонениями от тестовых сценариев.

Будущие исследования должны сосредоточиться на разработке алгоритмов, способных к самокоррекции и адаптации, а также на интеграции формальных методов верификации. Стремление к «рабочему» решению, без оглядки на математическую строгость, является дорогой в никуда. Элегантность алгоритма заключается не в его сложности, а в его способности масштабироваться и оставаться устойчивым в условиях неопределённости.

Оригинал статьи: https://arxiv.org/pdf/2602.22769.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-01 11:29