廣場
最新
熱門
新聞
我的主頁
發布
老叶1999.eth
2026-06-09 18:25:19
關注
Anthropic 終於推出了 Mythos 模型的安全版 Fable-5。
這些參數的資訊在網路上已經講得很多了,我就不重複搬運了。更值得關注的,其實是第三方編程工具 Augment Code 所做的真實任務測試。
這組測試一共跑了 489 個編程任務,結果挺有意思:
Fable-5 在整體表現和正確性上都明顯領先。整體分數 +0.224,正確性 +0.191,確實是目前看起來最強的一檔。
但另一個細節也很關鍵:GPT-5.5 依然穩穩壓過 Opus-4.8。
整體分數 GPT-5.5 是 +0.164,Opus-4.8 是 +0.128;正確性 GPT-5.5 是 +0.141,Opus-4.8 是 +0.092。
這也解釋了我最近的體感:Opus-4.8 出來之後,我並沒有明顯感覺它比 GPT-5.5 更強,至少在實際編程任務裡,這種感覺不是幻覺。
更現實的是成本問題。Fable-5 雖然強,但 Tokens 消耗和成本也高:每個任務約 14.6k tokens,單任務成本 $3.09;相比之下 GPT-5.5 是 7.5k tokens、$1.52。強是真的強,貴也是真的貴。
所以最後還是那句話:期待 GPT-5.6 早點來。
如果 Fable-5 只能在訂閱計畫裡用 10 天,之後就得按 API 原價調用,那它很可能不是普通用戶的日常生產力工具,而是少數人、少數場景裡的“奢侈品模型”。
AI 模型的使用,可能真的要開始分階級了。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
Gate直通IPO認購SpaceX
663.34萬 熱度
#
Strategy低位加倉1550枚BTC
289.53萬 熱度
#
美股AI概念股普漲
48.66萬 熱度
#
非農數據超預期加息預期升溫
182.72萬 熱度
#
預測NBA總冠軍贏20000U
85.46萬 熱度
已置頂
網站地圖
Anthropic 終於推出了 Mythos 模型的安全版 Fable-5。
這些參數的資訊在網路上已經講得很多了,我就不重複搬運了。更值得關注的,其實是第三方編程工具 Augment Code 所做的真實任務測試。
這組測試一共跑了 489 個編程任務,結果挺有意思:
Fable-5 在整體表現和正確性上都明顯領先。整體分數 +0.224,正確性 +0.191,確實是目前看起來最強的一檔。
但另一個細節也很關鍵:GPT-5.5 依然穩穩壓過 Opus-4.8。
整體分數 GPT-5.5 是 +0.164,Opus-4.8 是 +0.128;正確性 GPT-5.5 是 +0.141,Opus-4.8 是 +0.092。
這也解釋了我最近的體感:Opus-4.8 出來之後,我並沒有明顯感覺它比 GPT-5.5 更強,至少在實際編程任務裡,這種感覺不是幻覺。
更現實的是成本問題。Fable-5 雖然強,但 Tokens 消耗和成本也高:每個任務約 14.6k tokens,單任務成本 $3.09;相比之下 GPT-5.5 是 7.5k tokens、$1.52。強是真的強,貴也是真的貴。
所以最後還是那句話:期待 GPT-5.6 早點來。
如果 Fable-5 只能在訂閱計畫裡用 10 天,之後就得按 API 原價調用,那它很可能不是普通用戶的日常生產力工具,而是少數人、少數場景裡的“奢侈品模型”。
AI 模型的使用,可能真的要開始分階級了。