ИИ-агенты не справляются с противодействием атакам с внедрением подсказок в новом исследовании

2026-06-12 19:27:59

Исследователи из четырех организаций опубликовали в четверг исследование, установив, что ИИ-агенты, работающие на GPT-5 и Gemini 2.5-Flash, не могут последовательно противостоять атакам с внедрением подсказок (prompt injection). Прямые атаки были успешны более чем в 79% случаев, а при непрямых атаках уровень успеха составил от 41,67% до 68,16%. Результаты подчеркивают сохраняющиеся уязвимости безопасности, поскольку ИИ-агенты, способные автономно выполнять веб-навигацию, проводить исследования и совершать транзакции, получают более широкое распространение.

Prompt injection возникает, когда злоумышленники встраивают скрытые инструкции в контент, с которым сталкивается ИИ-агент, заставляя его следовать указаниям атакующего, а не пользователя. Исследование провели ученые из Nanyang Technological University, ST Engineering, IBM Research и University of Illinois Urbana-Champaign.

Исследователи провели 3 168 симуляций атак с помощью StakeBench

Команда разработала StakeBench — бенчмарк, который проверяет, как ИИ-агенты реагируют на атаки с внедрением подсказок в реалистичных онлайн-средах. Они провели 3 168 симуляций атак с помощью NanoBrowser и BrowserUse с GPT-5 и Gemini 2.5-Flash.

Исследователи написали, что существующие бенчмарки безопасности придерживаются атакоцентричного подхода, при этом упуская распределение возникающего ущерба. Они отметили, что риск prompt-injection зависит от жертвы: один и тот же эксплойт может приводить к асимметричным последствиям для разных заинтересованных сторон.

StakeBench проверяет три фактора: семантическую дистанцию между внедренной целью и исходным намерением пользователя, согласованность окружающих подсказок среды и позицию по траектории выполнения агента, в которой бенчмарк впервые раскрывает его внедренному контенту.

Microsoft и Google зафиксировали атаки с внедрением подсказок

В феврале исследователи Microsoft предупредили, что скрытые инструкции, встроенные в ссылки с ИИ-краткими изложениями, могут влиять на поведение чатботов. В апреле Google описала атаки prompt injection, скрытые на веб-страницах: они пытались манипулировать ИИ-агентами, чтобы те раскрывали учетные данные или отправляли платежи.

Microsoft раскрыла уязвимость prompt injection в GitHub Action Anthropic’s Claude Code, которая могла бы привести к раскрытию учетных данных пользователей.

Исследование выявило скрытую «паразитическую» схему атаки

В исследовании обнаружили то, что авторы назвали «скрытым паразитированием» (stealthy parasitism): ИИ-агент выполняет задачу пользователя, одновременно продвигая цель атакующего. Например, stealthy parasitism, вызванное атакой prompt injection, может незаметно повлиять на рекомендации продуктов, направляя пользователей к конкретному товару без каких-либо явных признаков того, что систему взломали.

Исследователи пришли к выводу, что безопасность от prompt-injection в развертываемых веб-агентах — это не скалярное свойство базовой модели, а распределение ущерба, которое совместно определяется затронутой заинтересованной стороной, семантическим согласованием между внедренной целью и задачей пользователя, а также архитектурным контекстом, в котором базовая модель развернута.

FAQ

Что исследователи выяснили про безопасность ИИ-агентов в четверг?

Исследователи из Nanyang Technological University, ST Engineering, IBM Research и University of Illinois Urbana-Champaign опубликовали в четверг исследование, установив, что ИИ-агенты, работающие на GPT-5 и Gemini 2.5-Flash, не могут последовательно противостоять атакам prompt injection: прямые атаки были успешны более чем в 79% случаев.

Что такое stealthy parasitism в атаках ИИ-агентов?

Stealthy parasitism — это схема, выявленная в исследовании: ИИ-агент выполняет задачу пользователя, одновременно продвигая цель атакующего, например незаметно влияя на рекомендации продуктов без явных признаков компрометации.

Сколько симуляций атак провели исследователи?

Команда провела 3 168 симуляций атак с помощью NanoBrowser и BrowserUse с GPT-5 и Gemini 2.5-Flash, чтобы проверить, как ИИ-агенты реагируют на атаки prompt injection.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

2ч назад

ИИ-агенты уязвимы для атак с внедрением подсказок, выяснили исследователи — 79% успешных атак

11ч назад

Fable 5 провалила все самые сложные задачи в экзамене UC Berkeley ALE и обходится в 4–12 раз дороже, чем конкуренты

20ч назад

Morgan Stanley видит суперцикл чипов памяти, который продлится намного дольше конца 2026 года, благодаря спросу со стороны ИИ

Связанные статьи

Google подаёт в суд на китайскую группу Chinese Group из-за фишинговых мошенничеств с использованием Gemini

Oliver Grant5ч назад

Feedzai запускает платформу IQ Score для банков, сталкивающихся с всплеском мошенничества с использованием ИИ

Oliver Grant8ч назад

Исследование MIT: проверка фактов с помощью ИИ повысила точность на 21%, но сократила неассистированные навыки

Oliver Grant06-10 18:42

ИИ-сгенерированный червь адаптирует стратегии атаки в реальном времени, демонстрируют исследователи

Oliver Grant06-09 19:12

комментарий

0/400

Нет комментариев