Anthropic 終於推出了 Mythos 模型的安全版 Fable-5。


這些參數的資訊在網路上已經講得很多了,我就不重複搬運了。更值得關注的,其實是第三方編程工具 Augment Code 所做的真實任務測試。
這組測試一共跑了 489 個編程任務,結果挺有意思:
Fable-5 在整體表現和正確性上都明顯領先。整體分數 +0.224,正確性 +0.191,確實是目前看起來最強的一檔。
但另一個細節也很關鍵:GPT-5.5 依然穩穩壓過 Opus-4.8。
整體分數 GPT-5.5 是 +0.164,Opus-4.8 是 +0.128;正確性 GPT-5.5 是 +0.141,Opus-4.8 是 +0.092。
這也解釋了我最近的體感:Opus-4.8 出來之後,我並沒有明顯感覺它比 GPT-5.5 更強,至少在實際編程任務裡,這種感覺不是幻覺。
更現實的是成本問題。Fable-5 雖然強,但 Tokens 消耗和成本也高:每個任務約 14.6k tokens,單任務成本 $3.09;相比之下 GPT-5.5 是 7.5k tokens、$1.52。強是真的強,貴也是真的貴。
所以最後還是那句話:期待 GPT-5.6 早點來。
如果 Fable-5 只能在訂閱計畫裡用 10 天,之後就得按 API 原價調用,那它很可能不是普通用戶的日常生產力工具,而是少數人、少數場景裡的“奢侈品模型”。
AI 模型的使用,可能真的要開始分階級了。
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆