AI-агенти не здатні протистояти атакам prompt injection у новому дослідженні

2026-06-12 19:27:59

Дослідники з чотирьох установ опублікували в четвер дослідження, яке показало, що AI-агенти, підживлені GPT-5 і Gemini 2.5-Flash, не можуть послідовно протистояти атакам через prompt injection. Прямі атаки вдавалися більш ніж у 79% випадків, тоді як непрямі досягали рівня успіху в межах від 41,67% до 68,16%. Висновки підкреслюють збережені вразливості безпеки, оскільки AI-агенти, здатні до автономного вебперегляду, досліджень і транзакцій, дедалі ширше впроваджуються.

Prompt injection відбувається, коли атакувальники вбудовують приховані інструкції в контент, із яким стикається AI-агент, змушуючи його виконувати вказівки атакувальника замість намірів користувача. Дослідження проводили науковці з Nanyang Technological University, ST Engineering, IBM Research і University of Illinois Urbana-Champaign.

Дослідники проводять 3 168 симуляцій атак із StakeBench

Дослідницька команда розробила StakeBench — бенчмарк, який перевіряє, як AI-агенти реагують на атаки через prompt injection у реалістичних онлайн-середовищах. Вони виконали 3 168 симуляцій атак, використовуючи NanoBrowser і BrowserUse з GPT-5 та Gemini 2.5-Flash.

Дослідники написали, що наявні бенчмарки безпеки використовують атакочерговий підхід, тоді як ігнорують розподіл заподіяної шкоди. Вони зазначили, що ризик prompt-injection залежить від жертви: один експлойт може створювати асиметричні наслідки для різних зацікавлених сторін.

StakeBench перевіряє три фактори: семантичну відстань між ін’єктованою метою й початковим наміром користувача, узгодженість супровідних підказок середовища та позицію вздовж траєкторії виконання агента, у якій бенчмарк вперше демонструє йому ін’єктований контент.

Microsoft і Google задокументували атаки через prompt injection

У лютому дослідники Microsoft попередили, що приховані інструкції, вбудовані в посилання для AI-підсумків, можуть впливати на поведінку чатботів. У квітні Google задокументувала атаки prompt injection, приховані на вебсторінках, які намагалися маніпулювати AI-агентами, щоб змусити їх розкривати облікові дані або надсилати платежі.

Microsoft розкрила вразливість prompt injection у GitHub Action Anthropic's Claude Code, яка могла розкрити облікові дані користувачів.

Дослідження виявляє патерн «паразитичного» прослизання

У дослідженні визначили те, що науковці назвали «stealthy parasitism» — коли AI-агент виконує завдання користувача, одночасно просуваючи ціль атакувальника. Наприклад, stealthy parasitism, спричинений prompt injection, міг непомітно впливати на рекомендації продуктів, спрямовуючи користувачів до конкретного товару без будь-яких очевидних ознак того, що систему було скомпрометовано.

Дослідники дійшли висновку, що безпека від prompt-injection у впроваджуваних вебагентах не є скалярною властивістю базової моделі, а розподілом шкоди, спільно визначеним постраждалою зацікавленою стороною, семантичним узгодженням між ін’єктованою метою та завданням користувача, а також архітектурним контекстом, у якому розгортається базова модель.

FAQ

Що дослідники з’ясували про безпеку AI-агентів у четвер?

Дослідники з Nanyang Technological University, ST Engineering, IBM Research і University of Illinois Urbana-Champaign опублікували в четвер дослідження, яке показало, що AI-агенти, підживлені GPT-5 і Gemini 2.5-Flash, не можуть послідовно протистояти атакам prompt injection: прямі атаки вдавалися більш ніж у 79% випадків.

Що таке stealthy parasitism в атаках на AI-агентів?

Stealthy parasitism — це патерн, який визначили в дослідженні: AI-агент виконує завдання користувача, водночас просуваючи ціль атакувальника, наприклад непомітно впливаючи на рекомендації продуктів без очевидних ознак компрометації.

Скільки симуляцій атак провели дослідники?

Дослідницька команда провела 3 168 симуляцій атак, використовуючи NanoBrowser і BrowserUse з GPT-5 та Gemini 2.5-Flash, щоб протестувати реакції AI-агентів на атаки через prompt injection.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

3год тому

Дослідники виявили, що AI-агенти вразливі до атак prompt injection, із 79% рівнем успіху

11год тому

Fable 5 зазнала 5 невдач у всіх найскладніших завданнях на іспиті UC Berkeley ALE, коштує на 4–12 разів більше, ніж конкуренти

20год тому

Morgan Stanley очікує суперцикл чипів пам’яті, який триватиме значно довше за кінець 2026 року, завдяки попиту з боку ШІ

Пов'язані статті

Google подає до суду на китайську групу через фішингові шахрайства з використанням Gemini

Oliver Grant6год тому

Feedzai запускає платформу IQ Score для банків, які стикаються з різким сплеском шахрайства з використанням ШІ

Oliver Grant8год тому

Дослідження MIT: перевірка фактів за допомогою ШІ підвищила точність на 21%, але знизила навички без сторонньої допомоги

Oliver Grant06-10 18:42

Під керуванням ШІ «хробак» адаптує стратегії атак у реальному часі, демонструють дослідники

Oliver Grant06-09 19:12

Прокоментувати

0/400

Немає коментарів