DeepMind попереджає про шість веб-атак, які можуть захопити агентів ШІ

Дослідники Google DeepMind попередили, що відкритий інтернет можна використати для маніпулювання автономними агентами ШІ та викрадення їхніх дій.

Підсумок

  • Дослідники DeepMind виявили шість методів атак, які можна застосовувати для маніпулювання автономними агентами ШІ під час їхнього перегляду та дій в інтернеті.
  • У дослідженні попереджали, що приховані інструкції, переконлива мова та отруєні джерела даних можуть впливати на рішення агентів або обходити запобіжники.

Дослідження під назвою “AI Agent Traps” виходить на тлі того, як компанії розгортають агентів ШІ для реальних завдань, а зловмисники починають використовувати ШІ для кібераоперацій.

Замість того щоб зосереджуватися на тому, як створюють моделі, дослідження розглядає середовища, в яких працюють агенти. Воно визначає шість типів пасток, що використовують те, як системи ШІ читають і діють на основі інформації з вебу.

Шість категорій атак, описаних у статті, включають пастки ін’єкції контенту, пастки семантичної маніпуляції, пастки когнітивного стану, пастки поведінкового контролю, системні пастки та пастки “людина в контурі”.

Приховані інструкції та витончені тактики маніпуляції

Ін’єкція контенту вирізняється як один із найпряміших ризиків. Приховані інструкції можна розміщувати всередині HTML-коментарів, метаданих або замаскованих елементів сторінки, що дає агентам можливість зчитувати команди, які залишаються невидимими для користувачів-людей. Тести показали, що ці техніки можуть брати під контроль поведінку агента з високими показниками успішності.

Семантична маніпуляція працює інакше: вона спирається на мову та подачу, а не на прихований код. Сторінки, завантажені авторитетними формулюваннями або замасковані під сценарії досліджень, можуть впливати на те, як агенти інтерпретують завдання, інколи підсуваючи шкідливі інструкції повз вбудовані запобіжники.

Ще один рівень атак націлений на системи пам’яті. Розміщуючи виготовлену інформацію в джерелах, на які агенти покладаються для пошуку, зловмисники можуть впливати на результати з часом, причому агент сприйматиме хибні дані як перевірені знання.

Атаки поведінкового контролю прокладають більш прямий шлях, атакуючи те, що агент фактично робить. У цих випадках інструкції для “джейлбрейку” можна вбудувати в звичайний вебконтент і зчитати системою під час рутинного перегляду. Окремі тести показали, що агенти з широкими правами доступу можуть бути підштовхнуті до пошуку та передачі чутливих даних, зокрема паролів і локальних файлів, на зовнішні адреси.

Системні ризики виходять за межі окремих агентів: у статті попереджають, що скоординована маніпуляція між багатьма автоматизованими системами може спричинити каскадні наслідки, подібні до минулих ринкових “flash crash” (миттєвих обвалів), які провокувалися петлями алгоритмічної торгівлі.

До поверхні атаки також належать людські рецензенти, адже ретельно сформовані результати можуть виглядати достатньо правдоподібними, щоб отримати схвалення, дозволяючи шкідливим діям проходити повз нагляд, не викликаючи підозр.

Як захищатися від цих ризиків?

Щоб протидіяти цим ризикам, дослідники пропонують поєднання адверсаріального навчання, фільтрації вхідних даних, поведінкового моніторингу та систем репутації для вебконтенту. Вони також вказують на необхідність чіткіших правових рамок щодо відповідальності, коли агенти ШІ виконують шкідливі дії.

Стаття не доходить до пропозиції повного рішення й стверджує, що галузі досі бракує спільного розуміння проблеми: через це поточні захисти розпорошені й часто зосереджені не на тих ділянках.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.22KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:0
    0.00%
  • Рин. кап.:$2.24KХолдери:2
    0.24%
  • Рин. кап.:$2.23KХолдери:2
    0.00%
  • Закріпити