Anthropic 用可見的後備措施取代 Claude Fable 5 的隱形防護

Anthropic 本週承認,其 Claude Fable 5 模型中的「不可見防護措施」是「錯誤的取捨」,並宣布將以可見的替代方案取代它們,改用 Claude Opus 4.8,從本週開始。該公司在推出 Claude Fable 5(其新 Mythos 類別的首個產品)後遭到撻伐:防護措施被藏在其 319 頁的系統卡中,卻在針對被懷疑正在打造競爭 AI 模型的使用者時,悄悄降低回應品質。爭議在 AI 研究公司 SemiAnalysis 於 2026 年 6 月 9 日公開報告其 GPU 推論研究遭到標記後爆發,Anthropic 也於 2026 年 6 月 11 日在 X 上發表道歉。這項不可見防護措施的運作方式,與模型既有針對網路安全與生物研究的可見保護不同:後者會在請求被轉由較舊的 Opus 4.8 模型處理時通知使用者。

Anthropic 宣布針對被標記請求的可見備援系統

從本週開始,所有被標記的請求將會明確地改走至 Claude Opus 4.8,而不是在背景中悄悄交付品質被降低的 Fable 輸出。當請求被拒絕時,API 使用者將收到明確的拒絕原因。Anthropic 表示,伺服器端的備援通知將在未來幾天內逐步推出。該公司在 X 發文:「不可見防護措施可以被更精準地針對,讓我們能以很少的誤判快速交付。基於這個原因,我們選擇了不可見防護措施——但那就是錯誤的取捨。你應該能看到我們已採取的防護措施,以及原因。我們對於未能在平衡上取得正確比例感到抱歉。」

Claude Fable 5 最初使用靜默回應降級

LLM 開發階段的防護措施會在使用者進行 AI 預訓練系統開發、建置分散式訓練基礎設施,或設計機器學習晶片時偵測到情況。模型會透過提示修改、引導向量或參數微調,悄悄改變自身行為,在未通知的情況下引導產生較差的答案。使用者確實拿到了回應,但拿到的並不是他們付費的 Fable 5。Claude Fable 5 先前已針對網路安全與生物研究提供可見防護:當請求被轉由較舊的 Opus 4.8 模型處理時,會通知使用者。分類器的精度問題導致合法的機器學習工作被標記,進而造成 AI 研究者在重現性方面的問題:因為他們沒有任何方式得知自己的結果已被污染。

新系統將被標記請求改由 Claude Opus 4.8 處理

被標記的請求現在將會明確地改為備援至 Opus 4.8,和公司針對網路與生物研究的防護措施相同。每當這種情況發生,使用者都會看到此通知。在 API 上,任何被標記的請求都將回傳拒絕原因,而不是在背景中靜默交付降級後的答案。Anthropic 也正在對其生物與網路安全分類器套用相同的改動;這兩個分類器曾因會標記無害的研究提示而引發抱怨。

Anthropic 承認:可見防護措施造成的誤判增加

Anthropic 直接承認它正在接受的取捨:讓防護措施可見會讓它們更容易被繞過,這意味著分類器必須擴大範圍才能維持有效性。更多的誤判——合法的機器學習工作被抓到並被重新導流——將在公司調整其系統期間出現。Anthropic 表示,正努力「盡快」降低誤判,但未提供時間表。Fable 5 在 Pro、Max、Team 與 Enterprise 方案中仍可免費使用至 6 月 22 日;之後將僅改以 API 使用量點數方式提供。

FAQ

Anthropic 本週在 Claude Fable 5 的防護措施上做了什麼改動?

Anthropic 宣布,從本週開始,被標記的請求將會明確地改走至 Claude Opus 4.8,而不是在背景中靜默交付降級後的輸出。當請求被拒絕時,API 使用者將收到明確的拒絕原因,而伺服器端的備援通知也將在未來幾天內逐步推出。

為什麼 Anthropic 要為 Claude Fable 5 原本的防護措施道歉?

Anthropic 道歉是因為模型用於 LLM 開發的不可見防護措施在未通知使用者的情況下,私下降低了回應品質;該公司也承認這是「錯誤的取捨」。這項防護措施被藏在一份 319 頁的系統卡中,並導致了合法 AI 研究者的重現性問題:因為他們沒有任何方式得知自己的結果已被污染。

Claude Fable 5 的免費存取何時結束?

Fable 5 在 Pro、Max、Team 與 Enterprise 方案中仍可免費使用至 6 月 22 日;之後將僅改以 API 使用量點數方式提供。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆