Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
DeepMind попереджає про шість веб-атак, які можуть захопити агентів ШІ
Дослідники Google DeepMind попередили, що відкритий інтернет можна використати для маніпулювання автономними агентами ШІ та викрадення їхніх дій.
Підсумок
Дослідження під назвою “AI Agent Traps” виходить на тлі того, як компанії розгортають агентів ШІ для реальних завдань, а зловмисники починають використовувати ШІ для кібераоперацій.
Замість того щоб зосереджуватися на тому, як створюють моделі, дослідження розглядає середовища, в яких працюють агенти. Воно визначає шість типів пасток, що використовують те, як системи ШІ читають і діють на основі інформації з вебу.
Шість категорій атак, описаних у статті, включають пастки ін’єкції контенту, пастки семантичної маніпуляції, пастки когнітивного стану, пастки поведінкового контролю, системні пастки та пастки “людина в контурі”.
Приховані інструкції та витончені тактики маніпуляції
Ін’єкція контенту вирізняється як один із найпряміших ризиків. Приховані інструкції можна розміщувати всередині HTML-коментарів, метаданих або замаскованих елементів сторінки, що дає агентам можливість зчитувати команди, які залишаються невидимими для користувачів-людей. Тести показали, що ці техніки можуть брати під контроль поведінку агента з високими показниками успішності.
Семантична маніпуляція працює інакше: вона спирається на мову та подачу, а не на прихований код. Сторінки, завантажені авторитетними формулюваннями або замасковані під сценарії досліджень, можуть впливати на те, як агенти інтерпретують завдання, інколи підсуваючи шкідливі інструкції повз вбудовані запобіжники.
Ще один рівень атак націлений на системи пам’яті. Розміщуючи виготовлену інформацію в джерелах, на які агенти покладаються для пошуку, зловмисники можуть впливати на результати з часом, причому агент сприйматиме хибні дані як перевірені знання.
Атаки поведінкового контролю прокладають більш прямий шлях, атакуючи те, що агент фактично робить. У цих випадках інструкції для “джейлбрейку” можна вбудувати в звичайний вебконтент і зчитати системою під час рутинного перегляду. Окремі тести показали, що агенти з широкими правами доступу можуть бути підштовхнуті до пошуку та передачі чутливих даних, зокрема паролів і локальних файлів, на зовнішні адреси.
Системні ризики виходять за межі окремих агентів: у статті попереджають, що скоординована маніпуляція між багатьма автоматизованими системами може спричинити каскадні наслідки, подібні до минулих ринкових “flash crash” (миттєвих обвалів), які провокувалися петлями алгоритмічної торгівлі.
До поверхні атаки також належать людські рецензенти, адже ретельно сформовані результати можуть виглядати достатньо правдоподібними, щоб отримати схвалення, дозволяючи шкідливим діям проходити повз нагляд, не викликаючи підозр.
Як захищатися від цих ризиків?
Щоб протидіяти цим ризикам, дослідники пропонують поєднання адверсаріального навчання, фільтрації вхідних даних, поведінкового моніторингу та систем репутації для вебконтенту. Вони також вказують на необхідність чіткіших правових рамок щодо відповідальності, коли агенти ШІ виконують шкідливі дії.
Стаття не доходить до пропозиції повного рішення й стверджує, що галузі досі бракує спільного розуміння проблеми: через це поточні захисти розпорошені й часто зосереджені не на тих ділянках.