Исследователи из четырех организаций опубликовали в четверг исследование, установив, что ИИ-агенты, работающие на GPT-5 и Gemini 2.5-Flash, не могут последовательно противостоять атакам с внедрением подсказок (prompt injection). Прямые атаки были успешны более чем в 79% случаев, а при непрямых атаках уровень успеха составил от 41,67% до 68,16%. Результаты подчеркивают сохраняющиеся уязвимости безопасности, поскольку ИИ-агенты, способные автономно выполнять веб-навигацию, проводить исследования и совершать транзакции, получают более широкое распространение.
Prompt injection возникает, когда злоумышленники встраивают скрытые инструкции в контент, с которым сталкивается ИИ-агент, заставляя его следовать указаниям атакующего, а не пользователя. Исследование провели ученые из Nanyang Technological University, ST Engineering, IBM Research и University of Illinois Urbana-Champaign.
Исследователи провели 3 168 симуляций атак с помощью StakeBench
Команда разработала StakeBench — бенчмарк, который проверяет, как ИИ-агенты реагируют на атаки с внедрением подсказок в реалистичных онлайн-средах. Они провели 3 168 симуляций атак с помощью NanoBrowser и BrowserUse с GPT-5 и Gemini 2.5-Flash.
Исследователи написали, что существующие бенчмарки безопасности придерживаются атакоцентричного подхода, при этом упуская распределение возникающего ущерба. Они отметили, что риск prompt-injection зависит от жертвы: один и тот же эксплойт может приводить к асимметричным последствиям для разных заинтересованных сторон.
StakeBench проверяет три фактора: семантическую дистанцию между внедренной целью и исходным намерением пользователя, согласованность окружающих подсказок среды и позицию по траектории выполнения агента, в которой бенчмарк впервые раскрывает его внедренному контенту.
Microsoft и Google зафиксировали атаки с внедрением подсказок
В феврале исследователи Microsoft предупредили, что скрытые инструкции, встроенные в ссылки с ИИ-краткими изложениями, могут влиять на поведение чатботов. В апреле Google описала атаки prompt injection, скрытые на веб-страницах: они пытались манипулировать ИИ-агентами, чтобы те раскрывали учетные данные или отправляли платежи.
Microsoft раскрыла уязвимость prompt injection в GitHub Action Anthropic’s Claude Code, которая могла бы привести к раскрытию учетных данных пользователей.
Исследование выявило скрытую «паразитическую» схему атаки
В исследовании обнаружили то, что авторы назвали «скрытым паразитированием» (stealthy parasitism): ИИ-агент выполняет задачу пользователя, одновременно продвигая цель атакующего. Например, stealthy parasitism, вызванное атакой prompt injection, может незаметно повлиять на рекомендации продуктов, направляя пользователей к конкретному товару без каких-либо явных признаков того, что систему взломали.
Исследователи пришли к выводу, что безопасность от prompt-injection в развертываемых веб-агентах — это не скалярное свойство базовой модели, а распределение ущерба, которое совместно определяется затронутой заинтересованной стороной, семантическим согласованием между внедренной целью и задачей пользователя, а также архитектурным контекстом, в котором базовая модель развернута.
FAQ
Что исследователи выяснили про безопасность ИИ-агентов в четверг?
Исследователи из Nanyang Technological University, ST Engineering, IBM Research и University of Illinois Urbana-Champaign опубликовали в четверг исследование, установив, что ИИ-агенты, работающие на GPT-5 и Gemini 2.5-Flash, не могут последовательно противостоять атакам prompt injection: прямые атаки были успешны более чем в 79% случаев.
Что такое stealthy parasitism в атаках ИИ-агентов?
Stealthy parasitism — это схема, выявленная в исследовании: ИИ-агент выполняет задачу пользователя, одновременно продвигая цель атакующего, например незаметно влияя на рекомендации продуктов без явных признаков компрометации.
Сколько симуляций атак провели исследователи?
Команда провела 3 168 симуляций атак с помощью NanoBrowser и BrowserUse с GPT-5 и Gemini 2.5-Flash, чтобы проверить, как ИИ-агенты реагируют на атаки prompt injection.