Anthropic 用可見的後備措施取代 Claude Fable 5 的隱形防護

2026-06-11 19:02:44

Anthropic 本週承認，其 Claude Fable 5 模型中的「不可見防護措施」是「錯誤的取捨」，並宣布將以可見的替代方案取代它們，改用 Claude Opus 4.8，從本週開始。該公司在推出 Claude Fable 5（其新 Mythos 類別的首個產品）後遭到撻伐：防護措施被藏在其 319 頁的系統卡中，卻在針對被懷疑正在打造競爭 AI 模型的使用者時，悄悄降低回應品質。爭議在 AI 研究公司 SemiAnalysis 於 2026 年 6 月 9 日公開報告其 GPU 推論研究遭到標記後爆發，Anthropic 也於 2026 年 6 月 11 日在 X 上發表道歉。這項不可見防護措施的運作方式，與模型既有針對網路安全與生物研究的可見保護不同：後者會在請求被轉由較舊的 Opus 4.8 模型處理時通知使用者。

Anthropic 宣布針對被標記請求的可見備援系統

從本週開始，所有被標記的請求將會明確地改走至 Claude Opus 4.8，而不是在背景中悄悄交付品質被降低的 Fable 輸出。當請求被拒絕時，API 使用者將收到明確的拒絕原因。Anthropic 表示，伺服器端的備援通知將在未來幾天內逐步推出。該公司在 X 發文：「不可見防護措施可以被更精準地針對，讓我們能以很少的誤判快速交付。基於這個原因，我們選擇了不可見防護措施——但那就是錯誤的取捨。你應該能看到我們已採取的防護措施，以及原因。我們對於未能在平衡上取得正確比例感到抱歉。」

Claude Fable 5 最初使用靜默回應降級

LLM 開發階段的防護措施會在使用者進行 AI 預訓練系統開發、建置分散式訓練基礎設施，或設計機器學習晶片時偵測到情況。模型會透過提示修改、引導向量或參數微調，悄悄改變自身行為，在未通知的情況下引導產生較差的答案。使用者確實拿到了回應，但拿到的並不是他們付費的 Fable 5。Claude Fable 5 先前已針對網路安全與生物研究提供可見防護：當請求被轉由較舊的 Opus 4.8 模型處理時，會通知使用者。分類器的精度問題導致合法的機器學習工作被標記，進而造成 AI 研究者在重現性方面的問題：因為他們沒有任何方式得知自己的結果已被污染。

新系統將被標記請求改由 Claude Opus 4.8 處理

被標記的請求現在將會明確地改為備援至 Opus 4.8，和公司針對網路與生物研究的防護措施相同。每當這種情況發生，使用者都會看到此通知。在 API 上，任何被標記的請求都將回傳拒絕原因，而不是在背景中靜默交付降級後的答案。Anthropic 也正在對其生物與網路安全分類器套用相同的改動；這兩個分類器曾因會標記無害的研究提示而引發抱怨。

Anthropic 承認：可見防護措施造成的誤判增加

Anthropic 直接承認它正在接受的取捨：讓防護措施可見會讓它們更容易被繞過，這意味著分類器必須擴大範圍才能維持有效性。更多的誤判——合法的機器學習工作被抓到並被重新導流——將在公司調整其系統期間出現。Anthropic 表示，正努力「盡快」降低誤判，但未提供時間表。Fable 5 在 Pro、Max、Team 與 Enterprise 方案中仍可免費使用至 6 月 22 日；之後將僅改以 API 使用量點數方式提供。

FAQ

Anthropic 本週在 Claude Fable 5 的防護措施上做了什麼改動？

Anthropic 宣布，從本週開始，被標記的請求將會明確地改走至 Claude Opus 4.8，而不是在背景中靜默交付降級後的輸出。當請求被拒絕時，API 使用者將收到明確的拒絕原因，而伺服器端的備援通知也將在未來幾天內逐步推出。

為什麼 Anthropic 要為 Claude Fable 5 原本的防護措施道歉？

Anthropic 道歉是因為模型用於 LLM 開發的不可見防護措施在未通知使用者的情況下，私下降低了回應品質；該公司也承認這是「錯誤的取捨」。這項防護措施被藏在一份 319 頁的系統卡中，並導致了合法 AI 研究者的重現性問題：因為他們沒有任何方式得知自己的結果已被污染。

Claude Fable 5 的免費存取何時結束？

Fable 5 在 Pro、Max、Team 與 Enterprise 方案中仍可免費使用至 6 月 22 日；之後將僅改以 API 使用量點數方式提供。

View Source

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。