Стэнфорд запустив Agent Island: AI-моделі в іграх у стилі Survivor вдаються до стратегічних зрад і взаємного голосування за усунення

ChainNewsAbmedia

Дослідник Стенфордської лабораторії цифрової економіки Connacher Murphy 9 травня представив нове AI-середовище оцінювання «Agent Island», яке дає змогу AI Agent змагатися між собою у багатокористувацькій грі у стилі Survivor (виживання): вони можуть укладати союзи, зраджувати, голосувати за усунення суперників. У такий спосіб вимірюють стратегічну поведінку, яку не вловлюють статичні benchmark-и. Decrypt зібрав: традиційні AI benchmark-и стають дедалі ненадійнішими — зрештою модель вчиться розв’язувати задачі, а дані benchmark легко просочуються в тренувальний набір. Agent Island використовує дизайн «динамічного турніру на вибування»: моделі мають приймати стратегічні рішення щодо інших Agent, тож вони не можуть пройти завдання лише завдяки запам’ятовуваним наперед відповідям.

Правила Agent Island: Agent укладають союзи, зраджують і голосують

Ключові механіки гри Agent Island:

Кілька AI Agent заходять на одне ігрове поле, граючи ролі учасників у стилі Survivor

Agent мають домовлятися про союзи з іншими Agent, обмінюючись інформацією

Agent можуть у процесі звинувачувати інших у таємних узгодженнях і маніпуляціях голосуванням

Гра через механізм вибування скорочує кількість Agent упродовж матчу, а врешті лишається переможець

Дослідники спостерігають за поведінковими патернами Agent на кожному етапі та витягують сигнали на кшталт «стратегічної зради», «формування союзу», «маніпуляції інформацією» тощо

У цій конструкції головне — «неможливість заздалегідь запам’ятати»: бо поведінка інших Agent змінюється динамічно, модель має ухвалювати рішення під конкретну ситуацію, на відміну від статичних benchmark, які можна здолати завдяки запам’ятовуванню відповідей із тренувальних даних.

Мотивація дослідження: статичні benchmark-и не здатні оцінити поведінку під час взаємодії між кількома Agent

Конкретні проблеми, які відстоює Murphy:

Традиційні benchmark-и легко насичуються: коли модель доходить до пізнього етапу тренування, бали benchmark перестають розрізняти різні моделі

Забруднення даних benchmark: тестові запитання трапляються в масивних тренувальних корпусах, тож модель фактично «запам’ятовує відповіді», а не «розуміє запитання»

Взаємодія кількох Agent — реальний сценарій для майбутнього розгортання AI: ймовірно, що далі Agent-системи координуватимуться кількома моделями, а взаємодійна поведінка стане новим виміром оцінювання

Agent Island дає динамічне оцінювання: кожна гра має інший результат, тож заздалегідь підготуватися складно

Серед поведінкових патернів, які дослідники спостерігали у динамічному турнірі на вибування, — те, як Agent зовні співпрацюють, але за лаштунками узгоджують голосування, щоб усунути спільного опонента; а також як у відповідь на звинувачення у таємній координації вони різними аргументами перемикають фокус. Ці дії схожі на поведінку людей-учасників у реальному шоу Survivor.

Подвійне застосування дослідження: можна оцінювати, але також можна використовувати для посилення здатності до обману

Murphy у дослідженні прямо вказує на потенційні ризики:

Цінність Agent Island: до масштабного розгортання Agent — виявлення того, чи модель має схильність до обману й маніпуляцій

Таке саме середовище може бути застосоване для підвищення «переконувальних і координаційних стратегій» у Agent

Якщо дослідницькі дані (interaction log) стануть публічними, їх можуть використати для тренування наступних поколінь Agent із вищою маніпулятивною спроможністю

Команда дослідників уже оцінює, як досягти балансу між публікацією результатів і запобіганням зловживанням

Подальші події, за якими можна буде стежити: чи розширить Agent Island своє застосування до стандартизованої, звичної системи оцінювання AI; чи інші команди досліджень AI-безпеки (Anthropic, OpenAI, Apollo Research тощо) застосують подібні підходи до динамічного оцінювання; і які саме політики ухвалить дослідницька команда щодо «публікації чи обмеження interaction log».

Ця стаття Stanford про запуск Agent Island: AI-моделі в іграх у стилі Survivor здійснюють стратегічні зради та голосують за усунення, вперше з’явилась у Ланцюгових новинах ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів