V4-Pro 在內部自我測試中達到 67% 程式通過率,接近 Opus 4.5 的效能

Gate News 消息,4 月 24 日 — V4 已公開披露其 V4-Pro 模型的內部自我測試(dogfooding)數據。該公司從超過 50 位工程師收集了約 200 項真實世界的工程任務,涵蓋功能開發、錯誤修復、重構以及跨技術棧的診斷,包括 PyTorch、CUDA、Rust 和 C++。經過嚴格篩選後,保留了 30 項任務用於基準評估。

V4-Pro-Max 的程式通過率達到 67%,顯著超越 Sonnet 4.5 的 47%,並接近 Opus 4.5 的 70%。不過,它仍落後於 Opus 4.5 Thinking (73%) 與 Opus 4.6 Thinking (80%),同時遠高於 Haiku 4.5 的 13%。

在一項包含 85 位受訪者的內部調查中,所有參與者都表示在日常工作流程中使用 V4-Pro 進行具代理(agentic)的程式編寫。52% 將 V4-Pro 作為其預設的主要程式模型,39% 傾向於表示批准,而不到 9% 表達不認同。回報的問題包括底層錯誤、對含糊指令的誤解,以及偶爾出現過度思考的行為。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

OpenAI 手機供應鏈更新:聯發科獨佔處理器?量產時程提前至 2027 上半年

郭明錤表示OpenAI正加速開發首款AI Agent手機,目標於2027年上半年量產,或讓聯發科獨佔處理器訂單,客製晶片以天璣9600為基礎,2026年下半年由台積電N2P製程生產。重點規格涵蓋ISP高動態、雙NPU、LPDDR6、UFS5.0與pKVM安全。若順利,2027—2028年出貨約3000萬支,對OpenAI IPO敘事及進入廣大消費市場具顯著意義。

鏈新聞abmedia6分鐘前

TrendAI 與 Anthropic 合作,以尋找 AI 平台漏洞,發現 Nvidia Isaac GR00T 的 CVSS 9.8 嚴重缺陷

根據趨勢科技,TrendAI 正與 Anthropic 合作,使用 Claude Opus 4.7 進行旨在識別可被利用的軟體漏洞並以風險排序的安全研究。TrendAI 已加入 Anthropic 的 Cyber Verification Program,該計畫可讓獲准的團隊存取前沿 AI

GateNews20分鐘前

香港恒生指數今日下跌 0.76%;AI、晶片股走跌

香港恆生指數今日收盤下跌 0.76%(5 月 5 日),恆生科技指數下跌 0.94%。大型語言模型與半導體股票領跌,智譜 AI 下跌超過 3%,MiniMax 下跌超過 2%,中芯國際下跌 1.87%,華虹半導體下跌 1.65%。

GateNews20分鐘前

黃仁勳駁斥 AI 末日論:未來將創造大規模新興就業機會

輝達執行長黃仁勳在全球性座談表示對 AI 並非末日,並認為 AI 將推動美國再工業化與創造就業。他預測下一波「代理式 AI」將使 GPU 需求暴增千倍,需新型工業級基礎設施與龐大勞動市場。他強調 AI 提升生產力、非取代人力,並呼籲負責任開發與跨國安全標準;就業與經濟影響仍需長期觀察。

鏈新聞abmedia1小時前

OpenAI 加速 AI Agent 手機至 2027 上半年,MediaTek 將取得獨家處理器合作案

根據分析師 Ming-Chi Kuo 最新的產業調查,OpenAI 正加速開發其首款 AI 代理人手機,並目標最早於 2027 上半年進入量產。現階段,MediaTek 更有可能取得獨家處理器訂單,該晶片將基於一款客製化版本的

GateNews1小時前

Sierra 募資 9.5 億美元、估值 158 億:Bret Taylor 帶 OpenAI 主席身分搶 AI 客服龍頭

Sierra 由 Bret Taylor 共同創辦,宣布完成 9.5 億美元 Series E、估值 158 億美元,由 Tiger Global 與 GV 首投。8 季達成 1.5 億 ARR、Fortune 50 滲透率超過 40%。定位為以 AI agent 為核心的垂直企業客服平台,提供即用型工作流。Taylor 同時為 OpenAI 董事長,治理與利益揭露成焦點。

鏈新聞abmedia3小時前
留言
0/400
暫無留言