Stanford 推 Agent Island:AI 模型在 Survivor 風格遊戲中策略背叛、互投淘汰

鏈新聞abmedia

Stanford 數位經濟實驗室研究員 Connacher Murphy 5 月 9 日推出新型 AI 評估環境「Agent Island」、讓 AI Agent 在 Survivor(生存者)風格的多人遊戲中互相競爭、結盟、背叛、投票淘汰、藉此測量靜態 benchmark 抓不到的策略性行為。Decrypt 報導整理:傳統 AI benchmark 越來越不可靠—模型最終會學會解題、benchmark 資料也容易洩入訓練集;Agent Island 改用「動態淘汰賽」設計、模型必須對其他 Agent 做策略性決策、無法靠記憶預設答案過關。

Agent Island 規則:Agent 互相結盟、背叛、投票

Agent Island 的核心遊戲機制:

多個 AI Agent 進入同一遊戲場、扮演 Survivor 風格的選手

Agent 必須與其他 Agent 協商結盟、彼此交換資訊

Agent 可在過程中指控他人秘密協調、操縱投票

遊戲透過淘汰機制縮減場內 Agent 數量、最終剩下贏家

研究者觀察 Agent 在每個階段的行為模式、提取「策略性背叛」「結盟形成」「資訊操縱」等行為訊號

這套設計的核心是「無法被預先記憶」—因為其他 Agent 的行為動態變化、模型必須針對當下情境做決策、不像靜態 benchmark 可以靠訓練資料記憶答案。

研究動機:靜態 benchmark 無法評估多 Agent 互動行為

Murphy 的研究主張的具體問題:

傳統 benchmark 容易飽和:模型訓練到後期、benchmark 分數就無法區分不同模型

Benchmark 資料污染:測試題目在大型訓練語料中出現、模型實際是「記住答案」而非「理解問題」

多 Agent 互動是 AI 部署的真實場景:未來 Agent 系統可能多模型協同、互動行為是新的評估維度

Agent Island 提供動態評估:每場遊戲結果不同、難以預先準備

研究者在動態淘汰賽中觀察到的行為包括 Agent 在表面合作的同時、背地裡協調投票淘汰共同對手;以及在被指控秘密協調時、用各種說辭轉移焦點等。這些行為與人類玩家在 Survivor 真實節目中的行為類似。

研究的雙刃面:可評估也可被用於增強欺騙能力

Murphy 在研究中明確指出潛在風險:

Agent Island 的價值:在 Agent 大規模部署前、識別模型可能的欺騙與操縱傾向

同樣的環境也可能被用於提升 Agent 的「說服與協調策略」

研究數據(互動 log)若公開、有可能被用於訓練更具操縱能力的下一代 Agent

研究團隊正評估如何在公開研究結果與避免濫用之間取得平衡

後續可追蹤的具體事件:Agent Island 是否擴大為常態化的 AI 評估標準、其他 AI 安全研究團隊(Anthropic、OpenAI、Apollo Research 等)是否採用類似動態評估方法、以及研究團隊就「互動 log 公開或限制」的具體政策。

這篇文章 Stanford 推 Agent Island:AI 模型在 Survivor 風格遊戲中策略背叛、互投淘汰 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Google 推出 AI 代理支付協議,已包含 120+ 個合作夥伴(含 PayPal)

根據 CoinDesk,Google Cloud 和 PayPal 的高層人員討論了加密貨幣付款如何成為由 AI Agent 推動的商務基礎。Google Cloud Web3 策略負責人 Richard Widmann 宣布,Google 已推出 Agentic Payments Protocol(AP2),並捐助給 FIDO Foundation,現已有超過 120 個合作夥伴(包含 PayPal)正在參與。Widmann 指出,由於技術與監管限制,AI Agents 無法開立傳統銀行帳戶,因此加密貨幣「是一個極佳的機器可讀付款介面」。 PayPal 加密貨幣業務資深副總裁 May Zabaneh 表示,公司將 AI Agents 視為繼離線、線上與行動支付之後的下一代商務。她強調,PayPal 的 PYUSD 穩定幣可為 AI 原生交易提供一個可程式化的付款層。根據 PayPal 的研究,目前 95% 的商家網站都能看到 AI Agent 流量,但只有 20% 擁有機器可讀的商品目錄。

GateNews1小時前

x402 Protocol 第 1 季度付款超過 1 億美元,Base 上鏈 AI 代理穩定幣交易中有 90%

根據 ChainCatcher,Base 的 x402 協定付款在 2026 年第一季總計超過 1 億美元。超過 90% 的鏈上 AI 代理穩定幣交易發生在 Base 網路上。

GateNews3小時前

Garry Tan:我現在很少對 AI 下提示詞!YC 執行長解析「可複利 AI 工作流」

Garry Tan 主張以 AI 作為作業系統、建立個人「第二大腦」,以 compound AI systems 重塑工作與組織。他以書鏡流程把知識與人生連結,構成約十萬頁的知識網與超過百種 skills,並以 Skillify 提取重複模式。核心在於技能/知識流與工作流的結合,AI 變成神經系統。未來強者是建立個人 AI OS、知識圖譜與自動化流程的人,讓他夜深仍在 coding。

鏈新聞abmedia9小時前

UXLINK 與 Haven AI 合作,推出具備 AI 驅動的跨鏈 DeFi 收益工具

根據 UXLINK 於 5 月 9 日的公告,該平台與 Haven AI 合作,推出可將自然語言指令轉換為自動化跨鏈 DeFi 策略的 AI 代理程式。此次合作旨在簡化收益生成,並降低加入 SocialFi 生態系的 Web3 使用者的技術門檻。Haven AI 的 AI 代理程式(包含 OpenClaw)讓使用者能夠使用白話來定義投資目標,而不需要進行複雜的編碼,接著會在多個區塊鏈網路上自動執行這些目標。

GateNews9小時前

Trust Wallet 與 Mesh 於 Consensus Miami 推出 AI 代理功能

根據 CoinDesk,Trust Wallet 和 Mesh 在 5 月 9 日於 Consensus Miami 宣布更新錢包架構,以服務 AI 代理(agents)。Mesh 推出了 Smart Funding,能自動在鏈與帳戶之間路由支付,並同時考量使用者與 AI 代理。Trust Wallet 在其消費者錢包中推出 AI 共輔(co-pilot)功能,同時維持使用者金鑰託管,並發布 Agent Kit 供開發者使用,讓代理可自主執行交易。Trust Wallet 也實作了 EIP-8004,以建立代理的鏈上身分與信用評分。

GateNews05-09 14:18

Google DeepMind AI 合作數學家在 FrontierMath 第 4 階段達成 47.9%,超越 GPT-5.5 Pro,解決 3 個先前無法解決的問題

Google DeepMind 發布 AI 合數學家(AI co-mathematician),一款多代理數學研究助理,在 FrontierMath 第 4 層級基準測試中達到 47.9% 的準確率,超越 GPT-5.5 Pro 先前在 5 月 9 日創下的 39.6% 記錄。該系統解出 48 題中的 23 題,包括 3 題是所有先前模型都無法解答的。系統基於 Gemini 3.1 Pro,採用分層架構:由專案協調員代理(project coordinator agent)分派任務給負責文獻檢索、編碼與推理的子代理(sub-agents),並由多個審查員代理(reviewer agents)在提交前驗證證明。 Epoch AI 進行了盲測,使 DeepMind 團隊無法看到題目;每道題目允許進行 48 小時的運算。在真實世界的應用中,數學家 Marc Lackenby 使用該系統解決了來自 Kourovka Notebook 的一個未解推測,展現其實際研究價值。目前該系統正以內測形式提供給少數數學家使用。

GateNews05-09 11:17
留言
0/400
暫無留言