V4-Pro 在內部自我測試中達到 67% 程式通過率,接近 Opus 4.5 的效能

Gate News 消息,4 月 24 日 — V4 已公開披露其 V4-Pro 模型的內部自我測試(dogfooding)數據。該公司從超過 50 位工程師收集了約 200 項真實世界的工程任務,涵蓋功能開發、錯誤修復、重構以及跨技術棧的診斷,包括 PyTorch、CUDA、Rust 和 C++。經過嚴格篩選後,保留了 30 項任務用於基準評估。

V4-Pro-Max 的程式通過率達到 67%,顯著超越 Sonnet 4.5 的 47%,並接近 Opus 4.5 的 70%。不過,它仍落後於 Opus 4.5 Thinking (73%) 與 Opus 4.6 Thinking (80%),同時遠高於 Haiku 4.5 的 13%。

在一項包含 85 位受訪者的內部調查中,所有參與者都表示在日常工作流程中使用 V4-Pro 進行具代理(agentic)的程式編寫。52% 將 V4-Pro 作為其預設的主要程式模型,39% 傾向於表示批准,而不到 9% 表達不認同。回報的問題包括底層錯誤、對含糊指令的誤解,以及偶爾出現過度思考的行為。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Cerebras 以 $400億億 的目標估值尋求在首次公開募股(IPO)中籌集 $4 Billion億

根據彭博社報導,AI 晶片製造商 Cerebras Systems 正尋求在其首次公開募股中籌資最多 $4 億美元,目標估值約為 400 億美元。這家總部位於加州的公司計劃最早於週一(5 月 5 日)啟動其 IPO 路演。承銷商已

GateNews41分鐘前

學院董事會在第 99 屆奧斯卡禁用 AI 內容,迫使僅由人類獲獎

美國電影藝術與科學學院(Academy of Motion Picture Arts and Sciences)為第 99 屆奧斯卡制定了嚴格的新規定,正式禁止在頂級類別使用由 AI 生成的內容,以保護人類的創意。 重點整理: 學院董事會禁止第 99 屆奧斯卡使用 AI,並要求在演出類別的署名僅限真人,針對演出 an

Coinpedia1小時前

Nvidia 的 NVentures 投資 $50M 於法律 AI 平台 Legora 的 A 系列 D 延伸(Series D Extension)

根據 ChainCatcher,Nvidia 的風投子公司 NVentures 參與了 Legora 的 5,000 萬美元 D 輪延長融資,這也是其首次投資法律 AI。這家與 Harvey 競爭的瑞典法律科技新創,其年度經常性收入(ARR)超過 1 億美元,

GateNews1小時前

OpenAI 首席財務官(CFO)建議將首次公開募股(IPO)延後至 2027 年,因成長放緩;執行長(CEO)則偏向 2026 年第 4 季

根據 Odaily,OpenAI 首席財務官 Sarah Friar 曾私下建議將該公司的首次公開募股(IPO)延後至 2027 年,理由是未能符合上市公司財務報告標準;而執行長 Sam Altman 則目標是將上市時間提前至 2026 年第四季度。ChatGPT 的每週活躍用戶在

GateNews2小時前

Bakkt 完成 DTR 收購,並在營收成長與策略重整中推進

Bakkt 已完成對 Distributed Technologies Research 的收購,這項舉措旨在將原生於人工智慧(AI)的穩定幣基礎設施整合到其核心金融服務中。 現代化全球結算 Bakkt Inc. 已完成對 Distributed Technologies 的收購

Coinpedia3小時前
留言
0/400
暫無留言