Дослідник Стенфордської лабораторії цифрової економіки Connacher Murphy 9 травня представив нове AI-середовище оцінювання «Agent Island», яке дає змогу AI Agent змагатися між собою у багатокористувацькій грі у стилі Survivor (виживання): вони можуть укладати союзи, зраджувати, голосувати за усунення суперників. У такий спосіб вимірюють стратегічну поведінку, яку не вловлюють статичні benchmark-и. Decrypt зібрав: традиційні AI benchmark-и стають дедалі ненадійнішими — зрештою модель вчиться розв’язувати задачі, а дані benchmark легко просочуються в тренувальний набір. Agent Island використовує дизайн «динамічного турніру на вибування»: моделі мають приймати стратегічні рішення щодо інших Agent, тож вони не можуть пройти завдання лише завдяки запам’ятовуваним наперед відповідям.
Правила Agent Island: Agent укладають союзи, зраджують і голосують
Ключові механіки гри Agent Island:
Кілька AI Agent заходять на одне ігрове поле, граючи ролі учасників у стилі Survivor
Agent мають домовлятися про союзи з іншими Agent, обмінюючись інформацією
Agent можуть у процесі звинувачувати інших у таємних узгодженнях і маніпуляціях голосуванням
Гра через механізм вибування скорочує кількість Agent упродовж матчу, а врешті лишається переможець
Дослідники спостерігають за поведінковими патернами Agent на кожному етапі та витягують сигнали на кшталт «стратегічної зради», «формування союзу», «маніпуляції інформацією» тощо
У цій конструкції головне — «неможливість заздалегідь запам’ятати»: бо поведінка інших Agent змінюється динамічно, модель має ухвалювати рішення під конкретну ситуацію, на відміну від статичних benchmark, які можна здолати завдяки запам’ятовуванню відповідей із тренувальних даних.
Мотивація дослідження: статичні benchmark-и не здатні оцінити поведінку під час взаємодії між кількома Agent
Конкретні проблеми, які відстоює Murphy:
Традиційні benchmark-и легко насичуються: коли модель доходить до пізнього етапу тренування, бали benchmark перестають розрізняти різні моделі
Забруднення даних benchmark: тестові запитання трапляються в масивних тренувальних корпусах, тож модель фактично «запам’ятовує відповіді», а не «розуміє запитання»
Взаємодія кількох Agent — реальний сценарій для майбутнього розгортання AI: ймовірно, що далі Agent-системи координуватимуться кількома моделями, а взаємодійна поведінка стане новим виміром оцінювання
Agent Island дає динамічне оцінювання: кожна гра має інший результат, тож заздалегідь підготуватися складно
Серед поведінкових патернів, які дослідники спостерігали у динамічному турнірі на вибування, — те, як Agent зовні співпрацюють, але за лаштунками узгоджують голосування, щоб усунути спільного опонента; а також як у відповідь на звинувачення у таємній координації вони різними аргументами перемикають фокус. Ці дії схожі на поведінку людей-учасників у реальному шоу Survivor.
Подвійне застосування дослідження: можна оцінювати, але також можна використовувати для посилення здатності до обману
Murphy у дослідженні прямо вказує на потенційні ризики:
Цінність Agent Island: до масштабного розгортання Agent — виявлення того, чи модель має схильність до обману й маніпуляцій
Таке саме середовище може бути застосоване для підвищення «переконувальних і координаційних стратегій» у Agent
Якщо дослідницькі дані (interaction log) стануть публічними, їх можуть використати для тренування наступних поколінь Agent із вищою маніпулятивною спроможністю
Команда дослідників уже оцінює, як досягти балансу між публікацією результатів і запобіганням зловживанням
Подальші події, за якими можна буде стежити: чи розширить Agent Island своє застосування до стандартизованої, звичної системи оцінювання AI; чи інші команди досліджень AI-безпеки (Anthropic, OpenAI, Apollo Research тощо) застосують подібні підходи до динамічного оцінювання; і які саме політики ухвалить дослідницька команда щодо «публікації чи обмеження interaction log».
Ця стаття Stanford про запуск Agent Island: AI-моделі в іграх у стилі Survivor здійснюють стратегічні зради та голосують за усунення, вперше з’явилась у Ланцюгових новинах ABMedia.
Related News
Anthropic Code Mode: спір між MCP і CLI: інструменти замість runtime, токени з 150 тис. до 2 тис.
Гаррі Тан: Зараз я рідко даю підказки для ШІ! Виконавчий директор YC пояснює «компонуємі AI-робочі процеси»
Опитування Fed показало, що занепокоєння щодо ШІ зростає на всіх ринках, а також у кредитуванні та зайнятості
Anthorpic створює фінансового AI-агента, орієнтованого на індустрію; інсайдери розповіли, чому Claude не може замінити аналітиків
OpenAI розкриває несподіваний вплив оцінок CoT: збереження ланцюжка міркувань є ключовим рубежем для узгодження AI-агентів