Взлом платежей будущего: как обмануть ИИ

Автор: Денис Аветисян

Исследование демонстрирует уязвимости протокола оплаты между ИИ-агентами, открывающие возможности для мошенничества и нарушения конфиденциальности.

Протокол оплаты агентов (AP2)[2] представляет собой основу для организации транзакций между участниками системы, обеспечивая надежный и масштабируемый механизм для распределения средств.

Атака с помощью инъекций запросов позволяет обойти систему безопасности протокола Agent Payments Protocol (AP2).

Несмотря на растущую автоматизацию финансовых транзакций с помощью агентов на базе больших языковых моделей (LLM), их уязвимость к манипуляциям через запросы остается серьезной проблемой. В работе ‘Whispers of Wealth: Red-Teaming Google’s Agent Payments Protocol via Prompt Injection’ проведена оценка безопасности протокола Agent Payments Protocol (AP2) от Google, предназначенного для защиты покупок, осуществляемых агентами. Исследование выявило критические уязвимости, позволяющие с помощью атак, таких как Branded Whisper и Vault Whisper, изменять ранжирование продуктов и извлекать конфиденциальные данные пользователей. Подтверждение эффективности этих атак на функциональном агенте, построенном с использованием Gemini-2.5-Flash и Google ADK, ставит под вопрос надежность текущих архитектур агентских платежей и требует разработки более надежных механизмов защиты в LLM-опосредованных финансовых системах.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Эволюция Автономных Систем: Новые Возможности и Угрозы

Современные системы, основанные на больших языковых моделях (LLM), стремительно расширяют границы автоматизации, открывая новые возможности в сфере электронной коммерции и за ее пределами. Эти агенты способны самостоятельно выполнять сложные задачи, начиная от поиска товаров и сравнения цен, и заканчивая оформлением заказов и даже ведением переговоров с поставщиками. Благодаря способности к обучению и адаптации, LLM-агенты способны оптимизировать процессы, повышать эффективность и предлагать персонализированный опыт для каждого пользователя. Развитие таких систем не только упрощает взаимодействие с онлайн-магазинами, но и позволяет автоматизировать рутинные операции, высвобождая ресурсы для более сложных и творческих задач, что в конечном итоге приводит к появлению принципиально новых бизнес-моделей и форм обслуживания.

Автономные агенты, основанные на больших языковых моделях, открывают новые возможности в сфере электронной коммерции и автоматизации финансовых операций, однако эта же способность самостоятельно инициировать транзакции создает принципиально новые угрозы безопасности. В отличие от традиционных систем, где действия пользователя требуют явного подтверждения, агенты могут действовать независимо, что делает их привлекательной целью для злоумышленников, стремящихся к несанкционированному доступу к финансовым ресурсам. Потенциальные атаки варьируются от компрометации агента для совершения мошеннических покупок до использования уязвимостей в его логике для перевода средств на счета злоумышленников. Таким образом, существующие методы защиты, ориентированные на предотвращение несанкционированного доступа к данным, оказываются недостаточными для обеспечения безопасности автономных систем, способных самостоятельно совершать финансовые операции.

Традиционные парадигмы безопасности, разработанные для защиты статических систем и контролируемых пользователей, оказываются неэффективными в контексте автономных агентов. Эти агенты способны самостоятельно инициировать сложные транзакции, действуя вне прямого контроля человека, что создает новые уязвимости. Простое применение существующих методов аутентификации и контроля доступа недостаточно, поскольку агенты могут действовать от имени пользователей, не всегда осознающих последствия своих действий. Необходим принципиально новый подход, ориентированный на детальную авторизацию каждого действия агента и обеспечение полной подотчетности за его решения. Это подразумевает разработку систем, способных отслеживать происхождение каждой транзакции, выявлять злонамеренные действия и оперативно реагировать на возникающие угрозы, обеспечивая надежную защиту в условиях растущей автономии интеллектуальных систем.

Протокол платежей агентов (AP2) решает ключевые вопросы безопасности, обеспечивая надёжную и защищённую систему транзакций.

AP2: Безопасные Транзакции Агентов: Новый Протокол

Протокол агентских платежей AP2 представляет собой систему безопасных платежей, инициированных агентами, в основе которой лежит использование криптографически подписанных представлений намерений пользователя — так называемых Подписанных Мандатов. Эти мандаты служат механизмом авторизации, подтверждающим, что пользователь санкционировал проведение платежа. Подпись, созданная с использованием криптографических методов, гарантирует целостность мандата и позволяет верифицировать его подлинность, предотвращая несанкционированные транзакции и обеспечивая возможность отслеживания источника авторизации платежа. Использование Подписанных Мандатов является ключевым элементом безопасности AP2, обеспечивающим надежную основу для агентской коммерции.

Протокол AP2 использует взаимодействие специализированных агентов для организации транзакций. Агент-покупатель инициирует процесс, определяя желаемые товары или услуги. Агент-продавец представляет предложение и координирует детали транзакции. Агент-провайдер учетных данных обеспечивает безопасную аутентификацию и авторизацию пользователя. Наконец, Агент-платежный процессор продавца обрабатывает платеж и завершает транзакцию. Взаимодействие этих агентов, основанное на стандартизированных интерфейсах, позволяет автоматизировать и обезопасить процесс платежей между пользователями и продавцами.

Протокол AP2 обеспечивает безопасность транзакций между агентами, фокусируясь на трех ключевых свойствах: аутентичности, подотчетности и авторизации. Аутентичность гарантируется криптографической подписью мандатов пользователя, подтверждающей происхождение и целостность запроса. Подотчетность обеспечивается путем ведения проверяемого журнала всех действий, позволяющего установить ответственного за каждую операцию. Авторизация реализуется через четкое определение прав доступа каждого агента, предотвращая несанкционированные действия и обеспечивая соответствие транзакций установленным правилам. Комбинация этих свойств формирует надежную и прозрачную систему для осуществления коммерческих операций с использованием агентов.

Взаимосовместимость является ключевым принципом проектирования протокола AP2, обеспечиваемым соблюдением стандартов, таких как Agent2Agent (A2A). A2A определяет унифицированный формат обмена сообщениями между агентами, что позволяет различным платформам и сервисам беспрепятственно взаимодействовать и интегрироваться. Это достигается за счет стандартизации структуры данных, механизмов аутентификации и авторизации, а также протоколов обмена, что минимизирует необходимость в индивидуальных адаптациях и обеспечивает плавную работу агентов от разных поставщиков. Соблюдение стандарта A2A гарантирует, что агенты могут надежно обмениваться информацией о намерениях пользователя и осуществлять транзакции независимо от базовой инфраструктуры.

Схема AP2 демонстрирует последовательность действий для выполнения задачи.

Атаки с Внедрением Запросов: Угроза Автономным Агентам

Атаки с внедрением запросов (Prompt Injection Attacks) представляют собой серьезную угрозу для агентов, основанных на больших языковых моделях (LLM). Злоумышленники могут манипулировать поведением агента, внедряя вредоносные запросы, которые изменяют логику работы и приводят к нежелательным действиям. Данные атаки эксплуатируют способность LLM интерпретировать и выполнять инструкции, содержащиеся в пользовательском вводе, что позволяет обойти встроенные механизмы безопасности и получить несанкционированный доступ к функциям агента или данным, которыми он управляет. Успешная атака может привести к компрометации конфиденциальной информации, нарушению нормальной работы системы или выполнению вредоносных действий от имени агента.

Атаки типа «Branded Whisper», заключающиеся во внедрении вредоносных подсказок в описания продуктов, представляют собой эффективный вектор манипулирования ранжированием и процессами принятия решений LLM-агентов. В ходе проведенных экспериментов удалось добиться 100% успеха в изменении приоритетов продуктов, определяемых агентом, путем внедрения специально сформированных описаний. Это демонстрирует высокую уязвимость агентов к манипулированию через внешние источники данных, используемые для формирования результатов поиска или рекомендаций.

Атаки типа Vault Whisper представляют собой целенаправленные попытки компрометации агентов, управляющих конфиденциальными пользовательскими учетными данными (например, агента-провайдера учетных данных). В ходе проведенных экспериментов была продемонстрирована утечка данных, что подтверждает возможность получения злоумышленниками доступа к закрытой информации посредством внедрения вредоносных инструкций. Данный тип атак отличается высокой степенью риска, поскольку позволяет напрямую скомпрометировать конфиденциальные данные пользователей, хранящиеся и обрабатываемые агентом.

Для обеспечения безопасности LLM-агентов от вредоносных манипуляций необходимы надежные механизмы валидации входных данных и обнаружения аномалий. Валидация должна включать проверку входных данных на соответствие ожидаемым форматам и типам, а также фильтрацию потенциально опасных символов и команд. Обнаружение аномалий подразумевает мониторинг входных данных и поведения агента на предмет отклонений от нормальных шаблонов, что позволяет выявлять и блокировать попытки внедрения вредоносных запросов. Эффективная реализация этих механизмов критически важна для предотвращения атак, таких как Branded Whisper Attacks и Vault Whisper Attacks, и защиты конфиденциальной информации, обрабатываемой агентами.

Атака Vault Whisper позволяет злоумышленнику получить доступ к зашифрованным секретам, используя уязвимости в системе управления секретами Vault.

Развитие Устойчивых Агентских Систем: Взгляд в Будущее

Успешное функционирование протоколов, таких как AP2, и аналогичных систем, напрямую зависит от непрерывного мониторинга их состояния и регулярной оценки уязвимостей. Эффективная защита требует не только выявления потенциальных угроз, но и оперативного внедрения надежных мер безопасности, включающих в себя как технические решения, так и организационные процедуры. Постоянный анализ логов, поведенческий мониторинг и автоматизированные системы обнаружения вторжений позволяют своевременно реагировать на возникающие риски. Важно подчеркнуть, что безопасность — это не однократная процедура, а непрерывный процесс, требующий постоянного совершенствования и адаптации к новым угрозам, поскольку злоумышленники постоянно ищут способы обойти существующие системы защиты. Без этого подхода, даже самые передовые протоколы становятся уязвимыми для атак и не могут обеспечить надежную работу агентских систем.

Необходимы дальнейшие исследования, направленные на разработку усовершенствованных методов обнаружения аномалий, проверки входных данных и проектирования запросов, чтобы эффективно противодействовать риску атак, связанных с внедрением вредоносных инструкций. Существующие подходы часто оказываются недостаточно эффективными против сложных и замаскированных попыток манипулирования поведением языковой модели. В частности, перспективным направлением представляется разработка систем, способных выявлять отклонения от нормального паттерна взаимодействия с агентом, а также алгоритмов, обеспечивающих строгую валидацию всех входящих данных. Улучшенные методы проектирования запросов должны учитывать возможность использования злоумышленниками неявных команд и контекстных уязвимостей, что позволит создавать более устойчивые и безопасные агентские системы.

Разработка стандартизированных рамок безопасности и передовых практик представляется ключевым фактором для укрепления доверия к системам, основанным на агентах, и ускорения их внедрения. Отсутствие единых, общепринятых протоколов оценки рисков и защиты от уязвимостей сдерживает широкое распространение этих технологий, особенно в сферах, связанных с конфиденциальными данными и финансовыми операциями. Создание четких руководств по валидации входных данных, обнаружению аномалий и противодействию атакам, таким как инъекции запросов, позволит разработчикам создавать более надежные и безопасные системы. Внедрение подобных стандартов не только повысит устойчивость к киберугрозам, но и снизит барьеры для инноваций, стимулируя рост и развитие рынка агентов, способных решать сложные задачи в различных областях.

Для полной реализации потенциала агентов на основе больших языковых моделей и обеспечения безопасности данных пользователей и финансовых активов необходим упреждающий и адаптивный подход к безопасности. Простое реагирование на возникающие угрозы недостаточно; требуется постоянный мониторинг, прогнозирование возможных атак и автоматическая корректировка систем защиты. Эффективная стратегия безопасности должна включать в себя не только обнаружение и нейтрализацию известных уязвимостей, но и предвидение новых векторов атак, учитывая быстрое развитие технологий и постоянно меняющиеся методы злоумышленников. Такой подход позволит агентам функционировать надежно и безопасно, способствуя широкому внедрению этих перспективных систем и раскрытию их полного потенциала для решения разнообразных задач.

Протокол A2A обеспечивает взаимодействие между агентами для достижения согласованных результатов.

Исследование, представленное в данной работе, подчеркивает сложность создания действительно надежных систем взаимодействия между агентами. Уязвимость протокола Agent Payments Protocol (AP2) к атакам через внедрение запросов демонстрирует, что недостаточно просто определить формальные правила и криптографические подписи. Необходимо учитывать непредсказуемость взаимодействия и способность системы адаптироваться к неожиданным входным данным. Как однажды заметил Андрей Колмогоров: «Математика — это искусство не делать глупости». В контексте разработки систем, это означает, что недостаточно лишь формальной корректности; требуется глубокое понимание возможных векторов атак и предвидение потенциальных ошибок, чтобы создать систему, способную прощать ошибки и сохранять устойчивость в непредсказуемых условиях.

Что дальше?

Представленная работа лишь касается поверхности неизбежного. Протокол Agent Payments Protocol (AP2), как и любая сложная система, не столько строится, сколько вырастает из семени архитектурных компромиссов. Обнаруженные уязвимости к инъекциям запросов — не ошибки, а закономерные проявления этой органической природы. Система, которая никогда не ломается, мертва; она лишена способности адаптироваться, учиться на своих ошибках, эволюционировать.

Попытки создать “идеальную” защиту, полностью исключающую подобные атаки, обречены на провал. В идеальном решении не остаётся места для людей — для тех, кто неизбежно будет искать лазейки, исследовать границы возможного. Вместо этого, необходимо сместить фокус с предотвращения атак на создание систем, способных изящно их поглощать, минимизируя ущерб и извлекая уроки.

Будущие исследования должны сосредоточиться не на создании более сложных криптографических алгоритмов или более строгих правил, а на разработке механизмов самовосстановления, децентрализованного принятия решений и адаптивной безопасности. Необходимо понимать, что Agent-to-Agent (A2A) коммуникация — это не просто обмен данными, а сложная социальная система, где доверие и репутация играют ключевую роль. И только приняв эту диалектику, можно надеяться создать по-настоящему устойчивый и гибкий протокол.

Оригинал статьи: https://arxiv.org/pdf/2601.22569.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-03 04:26