DeepSeek 推出 V4 開源預覽版,技術評分 3206 超越 GPT-5.4

Market Whisper

DeepSeek V4開源預覽版

DeepSeek 於 4 月 24 日正式推出 V4 預覽版系列,以 MIT 許可協議開源,模型權重已同步上線 Hugging Face 及 ModelScope。根據 DeepSeek V4 技術報告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基準取得 3206 分,超越 GPT-5.4。

兩款 MoE 模型架構規格

根據 DeepSeek V4 技術報告,V4 系列包含兩款混合專家(MoE)模型:

V4-Pro:總參數 1.6T,每 token 激活 49B,支援 1M token 上下文

V4-Flash:總參數 284B,每 token 激活 13B,同樣支援 1M token 上下文

根據技術報告,V4-Pro 在 1M 上下文下的單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 緩存降至 V3.2 的 10%,主要得益於混合注意力機制(壓縮稀疏注意力 CSA + 重度壓縮注意力 HCA)的架構升級。預訓練數據規模超過 32T token;訓練優化器更新為 Muon。

後訓練方法論:在線策略蒸餾取代混合強化學習

根據 DeepSeek V4 技術報告,V4 後訓練的核心更新在於以在線策略蒸餾(On-Policy Distillation,OPD)完全取代 V3.2 的混合強化學習(mixed RL)階段。新流程分為兩步:首先針對數學、程式碼、Agent 及指令跟隨等領域分別訓練領域專家(SFT + GRPO 強化學習);隨後以多教師 OPD 將十餘個專家的能力蒸餾至統一模型,透過 logit 對齊避免傳統方法中常見的能力衝突。

報告同時引入生成式獎勵模型(Generative Reward Model,GRM),針對難以用規則驗證的任務,以少量多樣化人工標注數據訓練,讓模型同時承擔生成與評估功能。

基準測試成績:編碼領先,知識推理仍有差距

根據 DeepSeek V4 技術報告,V4-Pro-Max 與 Opus 4.6 Max、GPT-5.4 xHigh 及 Gemini 3.1 Pro High 的對比結果(不含近期發布的 GPT-5.5 及 Opus 4.7):

Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ 全場最高

LiveCodeBench:93.5 → 全場最高

SWE Verified:80.6,落後 Opus 4.6 的 80.8 差 0.2 個百分點

GPQA Diamond:90.1,落後 Gemini 3.1 Pro 的 94.3

SimpleQA-Verified:57.9,落後 Gemini 3.1 Pro 的 75.6

HLE:37.7,落後 Gemini 3.1 Pro 的 44.4

技術報告同時指出,上述對比不含最近發布的 GPT-5.5 及 Opus 4.7,V4 與最新一代閉源模型的差距有待第三方評測驗證。

常見問題

DeepSeek V4 預覽版的開源授權條款為何,可在哪裡取得?

根據 DeepSeek 4 月 24 日的官方公告,V4 系列以 MIT 許可協議開源,模型權重已上線 Hugging Face 及 ModelScope,適用於商業與學術用途。

DeepSeek V4-Pro 與 V4-Flash 的參數規模有何差異?

根據 DeepSeek V4 技術報告,V4-Pro 總參數為 1.6T,每 token 激活 49B;V4-Flash 總參數為 284B,每 token 激活 13B,兩款均支援 1M token 上下文。

DeepSeek V4-Pro-Max 與 GPT-5.4 及 Gemini 3.1 Pro 的基準比較結果為何?

根據 DeepSeek V4 技術報告,V4-Pro-Max 在 Codeforces(3206 分)及 LiveCodeBench(93.5)兩項基準超越 GPT-5.4 及 Gemini 3.1 Pro,但在知識密集型基準(GPQA Diamond、SimpleQA-Verified、HLE)上仍落後 Gemini 3.1 Pro;比較組不含 GPT-5.5 及 Opus 4.7。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Anthropic 推出 10 款金融 AI 代理人,整合 Microsoft 365 輕鬆處理財務作業

Anthropic 推出 10 款金融 AI 代理人範本,整合 Microsoft 365、Moody’s、D&B 等資料夥伴,並可作為插件或自動排程使用。範本分為研究/客務與財務作業兩類,涵蓋投研、財務模型、KYC 等,並嵌入 Moody’s 評等。Claude Opus 4.7 在金融代理人基準居冠,顯示金融業人才與監管格局將受影響。

鏈新聞abmedia2分鐘前

Xbox CEO 終止主機 AI Copilot 開發,並逐步停止行動端服務

Xbox 執行長 Asha Sharma 於 5 月 6 日在 X 平台上宣布,Xbox 將停止主機端 AI Copilot 的開發,並逐步停止行動端 Copilot 服務。據 IGN 報道,Sharma 同日向 Xbox 員工發送了一份內部備忘錄,說明 Xbox 團隊正進行重大轉型,並任命新的領導層以加速執行。

Market Whisper14分鐘前

OpenAI 推出自助式廣告管理員,移除 $50K 最低消費要求

根據 Beating 監測,OpenAI 在美國推出 Ads Manager beta,讓中小型企業能在 ChatGPT 上自助投放廣告。該平台移除了先前 50,000 美元的最低消費要求,並將定價方式從按展示次數計費(CPM)轉為按點擊次數計費(CPC)。OpenA

GateNews40分鐘前

摩根大通(JPMorgan Chase)執行長表示,投資 1 萬億美元興建資料中心在長期來看是合理的

根據 FT,摩根大通(JPMorgan Chase)執行長 Jamie Dimon 昨天在 Anthropic 的 The Briefing 活動上表示,投入 1 萬億美元到資料中心,從長期觀點來看是「有意義的」。這筆支出不僅涵蓋資料中心,還包括晶片、電纜以及

GateNews51分鐘前

中國 AI 新創公司評估在 Meta 的 $2B Manus 收購逆轉後進行公司重組

根據 Benchmark Studio 的說法,包含 Moonshot AI 和 DeepRoute.ai 在內的中國 AI 新創公司正評估將公司註冊地從海外遷至中國大陸的選項,原因是中國證券監督管理委員會就離岸控股架構所提出的監管詢問。

GateNews54分鐘前
留言
0/400
暫無留言