Самообучающиеся агенты: путь к надежному искусственному интеллекту

Автор: Денис Аветисян


Новая система ASG-SI позволяет агентам на основе больших языковых моделей непрерывно совершенствовать свои навыки, опираясь на проверенные данные и формируя надежный опыт.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал

Исследование предлагает механизм аудируемого накопления навыков, основанный на верифицируемых вознаграждениях, синтезе опыта и непрерывном обучении для повышения управляемости и надежности агентских систем.

Несмотря на успехи в обучении агентов на основе больших языковых моделей, самосовершенствование таких систем сопряжено с рисками, связанными с непрозрачностью и невоспроизводимостью улучшений. В данной работе, посвященной ‘Audited Skill-Graph Self-Improvement for Agentic LLMs via Verifiable Rewards, Experience Synthesis, and Continual Memory’, предложен фреймворк ASG-SI, рассматривающий самосовершенствование как итеративное накопление проверяемых и повторно используемых навыков в структурированном графе. Такой подход позволяет обеспечить аудит решений об улучшении, контролировать обобщение и повысить надежность агентов, действующих в сложных средах. Сможет ли ASG-SI стать основой для создания управляемых и безопасных систем искусственного интеллекта, способных к непрерывному обучению и адаптации?


Предел традиционного обучения с подкреплением

Современные алгоритмы обучения с подкреплением часто сталкиваются с трудностями при решении сложных задач, требующих последовательности действий на протяжении длительного времени. Обученные политики оказываются хрупкими и неспособными адаптироваться к незначительным изменениям в окружающей среде или новым, ранее не встречавшимся ситуациям. Это связано с тем, что традиционные подходы стремятся к обучению единой, сложной стратегии, которая непосредственно отображает входные данные на действия, не формируя при этом обобщенных, переиспользуемых навыков. В результате, даже небольшие отклонения от условий обучения могут приводить к резкому ухудшению производительности, что ограничивает применимость таких систем в реальных, динамичных средах и подчеркивает необходимость разработки более надежных и адаптивных методов.

Несмотря на впечатляющий прогресс в области обучения с подкреплением, простое увеличение масштаба моделей не решает фундаментальных проблем, связанных со сложностью и обобщением. Исследования показывают, что для достижения действительно интеллектуального поведения требуется иной подход — создание систем, ориентированных на повторное использование отдельных навыков и возможность проверки их корректности. Вместо обучения агента с нуля для каждой новой задачи, акцент смещается на сбор и компоновку уже освоенных умений, подобно строительству из блоков. Такой подход позволяет не только ускорить процесс обучения, но и повысить надежность и предсказуемость поведения агента, обеспечивая возможность верификации и отладки отдельных компонентов. По сути, речь идет о переходе от монолитного обучения к модульной архитектуре, где каждая функция тщательно протестирована и может быть использована в различных контекстах.

Вместо обучения агентов “с нуля” для каждой новой задачи, современные исследования всё больше склоняются к построению их способностей из отдельных, верифицируемых компонентов. Такой подход предполагает создание библиотеки переиспользуемых навыков, которые могут комбинироваться и адаптироваться для решения сложных, долгосрочных задач. Вместо монолитного обучения, когда агент должен освоить всё сразу, акцент делается на постепенном наращивании компетентности и строгой проверке каждого полученного умения. Это позволяет не только повысить надежность и обобщающую способность агента, но и существенно упростить процесс отладки и модификации его поведения, обеспечивая более эффективное решение задач в динамично меняющейся среде.

ASG-SI: Архитектура графа навыков

В архитектуре ASG-SI ключевым элементом является Аудированный Граф Навыков (ASG), представляющий собой структурированное хранилище навыков, определяемых не только как отдельные функциональные единицы, но и посредством чётко заданных интерфейсов и зависимостей. Каждый навык в ASG имеет спецификацию входных и выходных данных, а также перечень других навыков, от которых он зависит для успешного выполнения. Это позволяет не только точно определить функциональность каждого навыка, но и обеспечить возможность его повторного использования и интеграции с другими навыками, создавая сложные поведенческие паттерны. Чёткое определение зависимостей также облегчает отладку и аудит системы, обеспечивая предсказуемость и надёжность её работы.

Графовая структура ASG-SI обеспечивает модульность, повторное использование и композиционную обобщаемость, что способствует более эффективному обучению. Модульность достигается за счет явного представления навыков как отдельных узлов в графе, что позволяет изолированно разрабатывать, тестировать и обновлять каждый навык. Повторное использование обеспечивается возможностью комбинировать существующие навыки для создания новых, более сложных способностей, избегая дублирования кода и сокращая время обучения. Композиционная обобщаемость достигается благодаря способности системы применять уже изученные навыки в новых, ранее не встречавшихся ситуациях, комбинируя их различными способами для решения разнообразных задач. Такой подход позволяет агенту быстро адаптироваться к новым условиям и эффективно использовать накопленный опыт.

Система использует Компилятор Навыков для извлечения и нормализации навыков из успешных траекторий, формируя базовые строительные блоки Аудированного Графа Навыков (ASG). Компилятор анализирует последовательности действий, приводящие к достижению целей, и идентифицирует повторяющиеся паттерны, которые затем абстрагируются в отдельные, переиспользуемые навыки. Нормализация включает в себя стандартизацию входных и выходных данных каждого навыка, а также определение его зависимостей от других навыков. В результате формируется структурированное представление навыков, пригодное для автоматического построения и повторного использования в различных задачах и средах.

Верификация и аудит навыков агента

В системе ASG-SI реализован модуль Верификатора-Аудитора, который воспроизводит действия кандита на навыки в контролируемой среде. Этот процесс позволяет оценить корректность и безопасность выполняемых действий. Результатом работы Верификатора-Аудитора является пакет доказательств (Evidence Bundle), содержащий данные о каждом шаге выполнения навыка, включая входные параметры, промежуточные результаты и выходные данные. Данный пакет используется для последующей верификации и аудита, а также для реконструкции процесса обучения и оценки достоверности получаемых вознаграждений.

Метод верификации на основе воспроизведения (Replay-Based Verification) предполагает повторное выполнение кандидатом заданных навыков в контролируемой среде. Этот процесс обеспечивает строгую проверку и валидацию, направленную на подтверждение корректности и безопасности выполняемых действий. Воспроизведение позволяет детально отслеживать каждый шаг выполнения навыка, выявлять потенциальные ошибки или отклонения от заданных параметров и гарантировать соответствие навыка установленным требованиям безопасности. Строгий контроль и возможность детального анализа действий, предоставляемые методом воспроизведения, повышают надежность оценки навыков и минимизируют риски, связанные с некорректным или небезопасным их применением.

Механизмы верифицируемого вознаграждения, реконструируемые из пакета доказательств (Evidence Bundle), обеспечивают прозрачный и надежный сигнал для обучения и аудита. Вознаграждение считается верифицированным, если его можно достоверно восстановить, используя данные, собранные в ходе воспроизведения навыка верификатором-аудитором. Для оценки целостности верифицированных вознаграждений используется метрика “коэффициент реконструкции на основе доказательств” (Evidence-based reconstruction rate), определяющая долю успешно реконструированных вознаграждений относительно общего количества. Высокий коэффициент реконструкции указывает на надежность и достоверность системы вознаграждений, а также на корректность работы верификатора-аудитора.

Для корректной работы верификатора-аудитора и формирования достоверного пакета доказательств (Evidence Bundle) критически важны операции с памятью. Эти операции позволяют отслеживать последовательность действий, выполняемых агентом в процессе демонстрации навыка, фиксируя все промежуточные состояния и параметры. Точное ведение журнала операций с памятью необходимо для реконструкции процесса выполнения навыка, проверки его корректности и выявления потенциальных отклонений от ожидаемого поведения. Без детальной записи операций с памятью невозможно обеспечить прозрачность и воспроизводимость результатов верификации, что является ключевым требованием для построения надежных систем обучения с подкреплением и проведения аудита.

К непрерывному обучению и надёжности

Система обучения на основе аудита навыков (ASG-SI) демонстрирует значительный потенциал в сценариях непрерывного обучения, позволяя агентам эффективно интегрировать новые умения без явления “катастрофического забывания”. В отличие от традиционных подходов, где освоение новой задачи часто приводит к потере ранее приобретенных навыков, ASG-SI использует механизм аудита для сохранения и переиспользования существующих умений. Это достигается за счет структурированного представления навыков и их взаимосвязей, что позволяет агенту адаптироваться к изменяющимся условиям и расширять свой репертуар без потери прежних возможностей. Исследования показывают, что такая система способствует созданию более гибких и устойчивых агентов, способных к долгосрочному обучению и адаптации в динамичной среде. По сути, ASG-SI обеспечивает своего рода “память навыков”, позволяющую агенту постоянно совершенствоваться и расширять свои возможности без риска потери ранее приобретенного опыта.

Для повышения обобщающей способности и устойчивости агентов активно применяются методы синтеза опыта, в частности, DreamGym. Данный подход позволяет генерировать дополнительные данные, дополняющие реальные наблюдения, и тем самым расширяет набор сценариев, с которыми агент сталкивается в процессе обучения. Это особенно важно в ситуациях, когда получение достаточного количества реальных данных затруднено или невозможно. Используя синтезированные данные, агент способен лучше адаптироваться к новым, ранее не встречавшимся ситуациям, а также проявлять большую устойчивость к шумам и возмущениям, что критически важно для надежной работы в реальном мире. Таким образом, синтез опыта становится мощным инструментом для создания более гибких и адаптивных интеллектуальных систем.

Предлагаемый фреймворк обеспечивает возможность декомпозиции сложных задач на составные, верифицируемые навыки. Такой подход позволяет агентам не просто выполнять отдельные действия, а собирать их в более сложные последовательности, адаптируясь к меняющимся условиям и новым требованиям. Каждое отдельное умение проходит аудит на соответствие заданным критериям, что гарантирует надежность и предсказуемость поведения агента в целом. Благодаря этому, система способна решать задачи, требующие гибкости и способности к комбинированию различных стратегий, значительно превосходя традиционные подходы к созданию искусственного интеллекта и демонстрируя повышенную адаптивность в различных средах.

Для обеспечения надежности и безопасности интеллектуальных агентов, разработанные оценочные метрики, основанные на нарушениях ограничений, ориентированы на конечные результаты деятельности. Вместо простого отслеживания действий, эти метрики оценивают, привело ли поведение агента к нежелательным последствиям, даже если само действие технически не нарушало заданные правила. Такой подход позволяет выявлять скрытые риски и уязвимости, которые могли бы остаться незамеченными при традиционных методах тестирования. В ходе оценки, агенты подвергаются воздействию разнообразных сценариев, разработанных для выявления потенциальных нарушений, а результаты фиксируются и анализируются для улучшения их способности соблюдать установленные нормы безопасности и избегать нежелательных исходов. Данная система оценки способствует созданию более предсказуемых и надежных агентов, способных безопасно функционировать в сложных и динамичных средах.

Масштабируемость и будущие направления

Инфраструктура, представленная AgentRL и Agent Lightning, обеспечивает масштабируемость системы ASG-SI для работы в сложных, многоходовых и многозадачных средах. Эти инструменты позволяют агентам эффективно функционировать не только в простых задачах, но и в ситуациях, требующих длительного планирования и адаптации к изменяющимся условиям. AgentRL обеспечивает обучение с подкреплением, позволяя агенту оптимизировать свои действия на основе получаемого вознаграждения, в то время как Agent Lightning ускоряет процесс обучения за счет эффективной параллелизации вычислений. Благодаря этому сочетанию, ASG-SI способна решать задачи, требующие последовательного выполнения нескольких шагов и интеграции различных навыков, открывая возможности для применения в широком спектре областей, от автоматизации сложных рабочих процессов до разработки интеллектуальных систем управления.

Предлагаемая архитектура ASG-SI демонстрирует свою применимость в задачах обучения с использованием инструментов, позволяя агентам эффективно интегрировать и задействовать внешние ресурсы. Ключевым аспектом является оценка валидности используемых инструментов, осуществляемая посредством ряда метрик. В частности, измеряется соответствие схемы данных, передаваемых инструменту, ожидаемому формату (‘schema-correctness rate’), а также корректность типов аргументов, используемых при вызове (‘argument-type correctness’). Важным показателем является и консистентность использования выходных данных инструмента в процессе принятия решений агентом (‘tool-output utilization consistency’), что позволяет оценить, насколько эффективно агент интегрирует полученные результаты в свою деятельность. Данный подход обеспечивает надежность и эффективность агентов, работающих в сложных средах, требующих взаимодействия с внешними системами.

Платформа ASG-SI продемонстрировала свою применимость в практических задачах разработки программного обеспечения, что подтверждается результатами, полученными на бенчмарке SWE-Bench-CL. Данный бенчмарк, разработанный для оценки возможностей агентов в решении сложных задач кодирования, позволил выявить способность ASG-SI успешно справляться с многоэтапными сценариями, требующими не только генерации кода, но и его последующей отладки и тестирования. Показанные результаты свидетельствуют о значительном потенциале данной архитектуры для автоматизации рутинных операций в процессе разработки, а также для повышения общей эффективности и качества программного обеспечения. Успешное применение ASG-SI в контексте SWE-Bench-CL открывает перспективы для создания интеллектуальных помощников, способных оказывать существенную поддержку разработчикам на всех этапах жизненного цикла программного продукта.

Перспективные исследования направлены на автоматизацию процесса обнаружения полезных навыков и усовершенствование системы аудита, что позволит значительно повысить надежность агентов. Разрабатываемые алгоритмы позволят агентам самостоятельно определять и осваивать новые навыки, необходимые для решения сложных задач. Ключевым показателем оценки эффективности и стабильности системы верификации предлагается использовать ‘воспроизводимость верификатора’ — метрику, отражающую согласованность результатов проверки при повторном запуске с идентичными входными данными. Данный показатель позволит оценить устойчивость системы к случайным факторам и обеспечить более предсказуемое поведение агента в различных условиях.

Исследование предлагает рассматривать самосовершенствование агентов не как хаотичное обучение, а как аккумулирование проверяемых, переиспользуемых навыков. Звучит разумно, хотя любой, кто работал с продакшеном, знает, что даже самые тщательно выверенные навыки рано или поздно дадут сбой. Клавд Шеннон однажды сказал: «Коммуникация всегда происходит через канал с шумом». В данном случае, “шумом” выступает реальный мир с его непредсказуемостью и граничными условиями. Система ASG-SI пытается этот “шум” отфильтровать, создавая контролируемую генерализацию, но, как показывает опыт, рано или поздно найдётся способ сломать даже самую элегантную архитектуру. Ведь в конечном итоге, продакшен — лучший тестировщик, и он всегда найдёт уязвимость.

Что дальше?

Предложенная система, фокусирующаяся на верифицируемых навыках и контролируемой обобщаемости, выглядит как очередной способ усложнить то, что могло быть простым. В конечном счёте, каждая «революция» в области агентного обучения неизбежно превращается в технический долг. Проблема не в создании самообучающихся агентов, а в том, как потом отлаживать километры кода, порождённые этими агентами, когда они начнут «креативить» на продакшене. Вполне вероятно, что акцент на «верифицируемости» лишь создаст иллюзию контроля, скрывая непредсказуемость, присущую любой сложной системе.

Вместо того, чтобы гнаться за «самосовершенствованием», более реалистичным представляется поиск способов локализации ошибок и упрощения отладки. Если код выглядит идеально — значит, его ещё никто не запустил в реальных условиях. Следующим шагом видится разработка инструментов, позволяющих быстро «откатить» агента к стабильной версии, а не пытаться исправить все его «творческие» ошибки на лету. Более того, вопрос «доказательства» навыка агента остаётся открытым — что значит «подтверждённый навык» в контексте постоянно меняющейся среды?

В конечном итоге, вся эта работа — лишь очередной шаг на пути к созданию всё более сложных систем, которые рано или поздно потребуют вмешательства человека. И не стоит забывать, что самая элегантная архитектура бесполезна, если её невозможно поддерживать и масштабировать. Пока что, задача состоит не в создании «идеального» агента, а в минимизации ущерба от его неизбежных ошибок.


Оригинал статьи: https://arxiv.org/pdf/2512.23760.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-03 22:50