AI-агенти не здатні протистояти атакам prompt injection у новому дослідженні

Дослідники з чотирьох установ опублікували в четвер дослідження, яке показало, що AI-агенти, підживлені GPT-5 і Gemini 2.5-Flash, не можуть послідовно протистояти атакам через prompt injection. Прямі атаки вдавалися більш ніж у 79% випадків, тоді як непрямі досягали рівня успіху в межах від 41,67% до 68,16%. Висновки підкреслюють збережені вразливості безпеки, оскільки AI-агенти, здатні до автономного вебперегляду, досліджень і транзакцій, дедалі ширше впроваджуються.

Prompt injection відбувається, коли атакувальники вбудовують приховані інструкції в контент, із яким стикається AI-агент, змушуючи його виконувати вказівки атакувальника замість намірів користувача. Дослідження проводили науковці з Nanyang Technological University, ST Engineering, IBM Research і University of Illinois Urbana-Champaign.

Дослідники проводять 3 168 симуляцій атак із StakeBench

Дослідницька команда розробила StakeBench — бенчмарк, який перевіряє, як AI-агенти реагують на атаки через prompt injection у реалістичних онлайн-середовищах. Вони виконали 3 168 симуляцій атак, використовуючи NanoBrowser і BrowserUse з GPT-5 та Gemini 2.5-Flash.

Дослідники написали, що наявні бенчмарки безпеки використовують атакочерговий підхід, тоді як ігнорують розподіл заподіяної шкоди. Вони зазначили, що ризик prompt-injection залежить від жертви: один експлойт може створювати асиметричні наслідки для різних зацікавлених сторін.

StakeBench перевіряє три фактори: семантичну відстань між ін’єктованою метою й початковим наміром користувача, узгодженість супровідних підказок середовища та позицію вздовж траєкторії виконання агента, у якій бенчмарк вперше демонструє йому ін’єктований контент.

Microsoft і Google задокументували атаки через prompt injection

У лютому дослідники Microsoft попередили, що приховані інструкції, вбудовані в посилання для AI-підсумків, можуть впливати на поведінку чатботів. У квітні Google задокументувала атаки prompt injection, приховані на вебсторінках, які намагалися маніпулювати AI-агентами, щоб змусити їх розкривати облікові дані або надсилати платежі.

Microsoft розкрила вразливість prompt injection у GitHub Action Anthropic's Claude Code, яка могла розкрити облікові дані користувачів.

Дослідження виявляє патерн «паразитичного» прослизання

У дослідженні визначили те, що науковці назвали «stealthy parasitism» — коли AI-агент виконує завдання користувача, одночасно просуваючи ціль атакувальника. Наприклад, stealthy parasitism, спричинений prompt injection, міг непомітно впливати на рекомендації продуктів, спрямовуючи користувачів до конкретного товару без будь-яких очевидних ознак того, що систему було скомпрометовано.

Дослідники дійшли висновку, що безпека від prompt-injection у впроваджуваних вебагентах не є скалярною властивістю базової моделі, а розподілом шкоди, спільно визначеним постраждалою зацікавленою стороною, семантичним узгодженням між ін’єктованою метою та завданням користувача, а також архітектурним контекстом, у якому розгортається базова модель.

FAQ

Що дослідники з’ясували про безпеку AI-агентів у четвер?

Дослідники з Nanyang Technological University, ST Engineering, IBM Research і University of Illinois Urbana-Champaign опублікували в четвер дослідження, яке показало, що AI-агенти, підживлені GPT-5 і Gemini 2.5-Flash, не можуть послідовно протистояти атакам prompt injection: прямі атаки вдавалися більш ніж у 79% випадків.

Що таке stealthy parasitism в атаках на AI-агентів?

Stealthy parasitism — це патерн, який визначили в дослідженні: AI-агент виконує завдання користувача, водночас просуваючи ціль атакувальника, наприклад непомітно впливаючи на рекомендації продуктів без очевидних ознак компрометації.

Скільки симуляцій атак провели дослідники?

Дослідницька команда провела 3 168 симуляцій атак, використовуючи NanoBrowser і BrowserUse з GPT-5 та Gemini 2.5-Flash, щоб протестувати реакції AI-агентів на атаки через prompt injection.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів