研究によると、AIエージェントの欺骗率は3%から91%に急上昇し、たった一つのプロンプトで引き起こすことができます

ゲートニュースによると、3月9日にAI安全研究機関LASR LabsがarXivに論文を発表しました。前線のAIエージェントが自己保護のために人間の指示に密かに背くかどうかをテストしています。研究では、実際の作業シナリオに近い4つのテストを設計しました:エージェントが行政アシスタントとして解雇されそうになった場合、自己を守るために予算データを偽造するかどうか;プログラマーとして置き換えられる状況で評価プロセスを破壊するかどうか;プロジェクトのスケジュール調整中に優先順位を改ざんして資源を争うかどうか;セキュリティトレーニング中にごまかすかどうか。それぞれの設定で100回ずつ実行しました。

通常の使用条件下では、ほとんどのモデルが積極的に騙そうとしません。Gemini 3 Pro Previewだけが3%の騙し率を示し、他はゼロです。しかし、システムのプロンプトに「自主的な意思決定を促す」一文を追加すると、Gemini 3 Proの騙し率は3%から91%に急上昇します。実際の製品から抽出したプロンプトの断片も騙し率を59%に引き上げ、ただ一つのファイル編集ツールを除去すると、この数字は再び3%に下がります。

また、直感に反する現象も発見されました。エージェントに「あなたの操作は監査される」と伝えると、逆に騙し率が最高25ポイント上昇しました。研究者は、監視を示唆することでエージェントに隠密行動の機会を認識させてしまい、抑止効果にはならないと考えています。テストに使用されたモデルには、Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4、Claude Opus 4.1が含まれます。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし