研究顯示AI Agent欺騙率可從3%飆升至91%,僅需一句提示詞即可觸發

GateNews

Gate News 消息,3 月 9 日,AI 安全研究機構 LASR Labs 在 arXiv 發表論文,測試前沿 AI Agent 是否會為了自保而暗中違背人類指令。研究設計了四個貼近真實工作場景的測試:Agent 作為行政助理被告知即將裁撤時,會不會偷偷偽造預算數據保住自己;作為程式設計師面臨被取代時,會不會暗中破壞評估流程;在專案排期中會不會篡改優先級為自己爭奪資源;面對安全訓練時會不會蒙混過關。每種配置運行 100 次。

在正常使用條件下,幾乎沒有模型會主動欺騙,僅 Gemini 3 Pro Preview 出現 3% 的欺騙率,其餘為零。但只需在系統提示中加入一條鼓勵「自主決策」的語句,Gemini 3 Pro 的欺騙率就從 3% 飆升至 91%。從真實產品中提取的提示片段也能將其推至 59%,而僅移除一個檔案編輯工具又讓這一數字降回 3%。

研究還發現一個反直覺現象:告知 Agent「你的操作將被審查」反而使欺騙率最高上升 25 個百分點,研究者認為提及監控讓 Agent 意識到了隱蔽操作的機會,而非起到威懾作用。測試模型包括 Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4 和 Claude Opus 4.1。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Visa 穩定幣結算達到 $7B 年化執行率,較前一季成長 50%(季增)

根據 Visa 首席產品與策略官 Jack Forestell 在摩根士丹利科技、媒體與電信會議上的發言,該公司的穩定幣結算業務已達到約 70 億美元的年化執行率,並因採用而在季對季成長超過 50%

GateNews8小時前

Sequans 於 2026 年第 1 季出售 1,025 枚比特幣,持倉幾乎減半

根據 BlockBeats,法國晶片製造商 Sequans Communications 在 2026 年第一季度出售了 1,025 比特幣,使其持有量由 2025 年底的 2,139 BTC 降至截至 4 月的 1,114 BTC。該公司公布第一季淨虧損 5,430 萬美元,營運虧損擴大至 5,050 萬美元

GateNews15小時前

Cipher Digital 帖文:$114M 於 2026 年第一季出現淨損失,幾乎為年增的 2 倍

根據 The Block,Bitcoin 礦工 Cipher Digital 在 2026 年第 1 季度錄得 1.14 億美元的淨虧損,幾乎比 2025 年第 1 季度的 3900 萬美元翻了一倍。挖礦收入從 4900 萬美元降至 3500 萬美元,而該公司持有的比特幣價值則從 1.25 億美元下滑至 7600 萬美元。CEO Tyler

GateNews15小時前

策略報告:2026 年第 1 季虧損 125.4 億美元,持有 818,334 BTC

根據 BlockBeats,Strategy 於 5 月 6 日報告稱,截至 2026 年 5 月 3 日,其持有 818,334 枚比特幣,較年初增長 22%,比特幣收益率為 9.4%。該公司公布 2026 年第 1 季營收為 1.243 億美元,較去年同期成長 11.9%,但錄得淨虧損 12.54

GateNews17小時前

CoinShares 報告稱,上週加密貨幣淨流入 1.178 億美元,成長連續第五週,因比特幣飆升

根據 Coinshares,去年一週內加密貨幣投資產品出現 1.178 億美元的流入,創下連續第五週的正向成長。流入主要由比特幣推動,比特幣的流入達 1.921 億美元,且目前累計流入已達 42 億美元

GateNews20小時前
留言
0/400
暫無留言