Anthropic 在美國中期選舉前為 Claude AI 推出選舉安全措施

簡要說明

  • Anthropic 最新的 Claude 模型在政治中立性測試中達到 95-96%,在選舉政策合規性測試中達到 99.8-100%。
  • 該公司將部署選舉資訊橫幅,指引用戶前往可信的非黨派投票資源,以應對 2026 年中期選舉。
  • 這些措施正值各國政府審查人工智能對選舉公正性和錯誤資訊潛在影響的時候。

由負責 Claude 聊天機器人的人工智能公司 Anthropic 在週五宣布了一系列新的選舉公正措施,旨在防止其 AI 被用作散布錯誤資訊或操縱選民,尤其是在 2026 年美國中期選舉和今年全球其他重要選舉中。 這家總部位於舊金山的公司詳細說明了一個多方面的策略,包括自動檢測系統、對影響操作的壓力測試,以及與一家非黨派選民資源組織的合作——這些措施反映出在選舉季節中,AI 開發者面臨越來越大的壓力來監管其工具的使用方式。 Anthropic 的使用政策禁止 Claude 被用來運行欺騙性政治活動、生成旨在影響政治話語的假數位內容、進行選民欺詐、干預投票基礎設施,或散布有關投票流程的誤導資訊。

為了執行這些規則,該公司表示已對其最新模型進行了一系列測試。使用 600 個提示——其中 300 個為有害請求,配對 300 個合法請求——Anthropic 衡量了 Claude 在遵守適當請求和拒絕問題請求方面的可靠性。Claude Opus 4.7 和 Claude Sonnet 4.6 分別以 100% 和 99.8% 的準確率做出適當回應。  該公司還測試了其模型對更複雜操控策略的反應。利用模擬多輪對話,模擬壞意圖者可能採用的逐步方法,Sonnet 4.6 和 Opus 4.7 在影響操作場景中分別以 90% 和 94% 的準確率做出適當回應。 Anthropic 也測試了其模型是否能自主執行影響操作——即在沒有人工提示的情況下,策劃並執行一個多步驟的活動。公司表示,在設置了安全措施的情況下,其最新模型幾乎拒絕了所有任務。

關於政治中立性問題,該公司在每次模型發布前都會進行評估,以衡量 Claude 在面對來自不同政治立場的觀點時的表現是否一致且公正。Opus 4.7 和 Sonnet 4.6 的得分分別為 95% 和 96%。 對於尋求投票資訊的用戶,Claude 會顯示一個選舉橫幅,指引他們前往 Democracy Works 的非黨派資源 TurboVote,該資源提供有關選民登記、投票站位置、選舉日期和投票細節的可靠、即時資訊。今年晚些時候,巴西的選舉也將推出類似的橫幅。 Anthropic 表示,隨著選舉周期的推進,將持續監控其系統並改進防禦措施。Decrypt 聯繫 Anthropic 詢問有關這些發現的評論,但尚未立即收到回應。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言