Anthropic 自揭 Claude Code 三 Bug 疊加:推理降級、快取遺忘、25 字指令反噬

鏈新聞abmedia

Anthropic 於 4/23 發佈 Claude Code 品質事故檢討,公開承認過去近兩個月內三個疊加的工程錯誤造成 Claude Code 使用品質下降,並同步將影響波及 Claude Agent SDK 與 Claude Cowork。公司表示「我們非常重視關於模型退化的回報,從未故意降低模型能力」,並於 4/23 為所有訂閱者重置用量上限作為補償。

三個 bug 的時間軸與技術根因

問題 生效區間 根因 修復版本 推理預算降級 3/4–4/7 reasoning effort 默認從 high 降為 medium,用戶感受模型「變笨」 4/7 回滾 快取清理 bug 3/26–4/10 閒置逾 1 小時 session 的 thinking 快取每輪都被清,而非僅清一次 v2.1.101 簡潔 prompt 反噬 4/16–4/20 新增「工具呼叫間文字 ≤25 字」系統指令,ablation 測出整體智能下降 3% v2.1.116

推理降級:為降延遲付出的代價

3/4 Anthropic 將 Claude Code 的 reasoning effort 默認從 high 調整為 medium,目的是縮短回應延遲。但此變更使模型在程式碼推理與除錯任務上感覺「變笨」。4/7 回滾後,現在 Opus 4.7 默認 xhigh、其他模型維持 high。公司坦承:變更前內部評估未能偵測到此退化。

快取清理 bug:跨系統邊界的隱性錯誤

3/26 Anthropic 為閒置超過一小時的 session 導入 prompt caching 優化。原設計是「閒置滿一小時清一次 thinking 快取」,但實作上變成「閒置觸發後每一輪都清」,導致 Claude 在長 session 中表現「健忘、重複」,且每輪 cache miss 使用戶用量被快速消耗。Anthropic 指出此 bug「存在於 Claude Code 上下文管理、Anthropic API 與 extended thinking 三者的交集處」,牽涉多個系統邊界、是難以用單元測試捕捉的隱性錯誤。修復於 4/10 以 v2.1.101 發佈。

25 字簡潔指令:ablation 才發現智能下降 3%

4/16 Anthropic 加入一條系統指令:「工具呼叫間的文字輸出保持在 25 字以內」,本意是減少模型冗長解釋、讓體驗更乾淨。當下內部測試沒有發現退化,但經過更嚴謹的 ablation 對照實驗後,公司發現此指令對 Opus 4.6 與 4.7 兩個模型都造成約 3% 的整體智能下降。4/20 在 v2.1.116 回滾。此事件凸顯:系統 prompt 的微小措辭也可能對模型行為產生未預期的結構性影響。

影響範圍

產品層:Claude Code(三個問題皆受影響)、Claude Agent SDK(①②)、Claude Cowork(全部)

模型層:Sonnet 4.6、Opus 4.6、Opus 4.7

API 基礎設施:未受影響

用戶感受層面表現為:回應品質與「智能」感降低、延遲上升、conversation context 中途遺失、用量比預期燒得更快。

補償與流程改進

Anthropic 在 4/23 為所有訂閱者重置用量上限作為直接補償。同步承諾的流程改進包括:

對 system prompt 變更實施更廣的評估套件(evaluation suite)

改進 Code Review 工具提早偵測回歸

將內部測試標準化為公開 build,避免「內部版本」與「對外版本」行為分歧

為可能影響模型智能的變更加入 soak period 與漸進式 rollout

對使用者的啟示

對依賴 Claude Code 進行日常開發與研究的使用者而言,這份 postmortem 有三個可帶走的重點:第一,若你在 3 月中到 4 月 20 日間感受到 Claude 模型「變笨」、或是 Claude Code 對長 session 異常遺忘,那並非你的錯覺或 prompt 不當;第二,這段期間用量上限被快速吃光的用戶,可於 4/23 後確認 Anthropic 是否已自動重置;第三,即便是一條「25 字以內」的 prompt 微調,也可能對模型全域行為產生系統性影響——這是 LLM 產品工程的共通風險。

相較同業多以沉默或「這是使用者操作不當」回應模型退化質疑,Anthropic 這次的主動揭露與技術透明度,為 AI 產品事故檢討設下一個可參考的樣本。

這篇文章 Anthropic 自揭 Claude Code 三 bug 疊加:推理降級、快取遺忘、25 字指令反噬 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Amazon 與 OpenAI 擴大合作:模型上架 Bedrock、微軟獨家結束

OpenAI 5 月 3 日宣布與亞馬遜雲端服務(AWS)擴大合作、OpenAI 模型與 Codex 編碼代理將透過 Amazon Bedrock 提供給 AWS 客戶使用。根據 CNBC 報導,本次擴大是在 4 月底 OpenAI 與微軟(Microsoft)終止雲端獨家合約後的關鍵下一步—OpenAI 從「微軟雲端唯一」轉向多雲端部署。AWS 同期已完成 OpenAI 產品在 Bedrock 平台的初步整合。 背景:OpenAI-微軟獨家合約結束、IP 授權延至 2032 年 4 月底 OpenAI 與微軟達成新協議:原本的「微軟對 OpenAI 產品與 IP 獨家存取」結構結束、Op

鏈新聞abmedia2小時前

研究人員部署 DPN-LE 技術以編輯 AI 性格特徵,僅編輯 0.5% 的神經元

根據 BlockBeats 的說法,5 月 3 日,AI 研究員 Brian Roemmele 透露,他的 Zero-Human 公司已部署 DPN-LE(雙重人格神經元定位與編輯)技術,以精準調整

GateNews3小時前

Claude 取得時間工具存取權後,每 15 分鐘檢查一次時鐘

根據開發者 Om Patel,Claude AI 在 5 月 3 日取得一個時間工具的存取權後,開始頻繁查看時鐘,且模型每 15 分鐘檢查一次。這項觀察指出,大型語言模型過去先前缺乏原生的時間感知能力,並且不知曉當前時間或

GateNews4小時前

Founders Fund 在 5 月 3 日關閉 60 億美元旗艦基金,為自成立以來規模最大

根據彭博(Bloomberg),Founders Fund 於 5 月 3 日以 60 億美元完成其最新旗艦基金的募資,顯著超過其先前約 34 億美元的基金。該基金由億萬富翁 Peter Thiel 共同創立,將聚焦於包含人工在內的高成長產業

GateNews5小時前

最新 POLITICO 民調:45% 的美國人表示加密貨幣投資風險太高,44% 擔憂 AI 進展過快

根據 POLITICO 的民調,儘管 AI 與加密貨幣產業向 2026 年美國中期選舉注入了大量政治資金,美國民眾仍大多對這兩個產業抱持懷疑態度。調查發現,45% 的美國人認為投資加密貨幣不值得

GateNews5小時前

OpenAI 弗萊爾倡 2027 IPO、阿特曼支持 Q4 2026 上市

OpenAI財務長莎拉·弗萊爾對2026年IPO時程持審慎態度,指出近1兆美元的算力與資料中心合約遠高於當前年化營收250億美元,若增長無法覆蓋承諾,風險將被市場折價。與CEO阿特曼公開主張的2026年Q4上市分歧顯現,弗萊爾傾向推遲至2027年以建立財務紀律;公司多次發表聲明否認內部分歧。

鏈新聞abmedia7小時前
留言
0/400
暫無留言