DeepSeek 推出 V4 開源預覽版，技術評分 3206 超越 GPT-5.4

2026-04-24 05:38:01

DeepSeek 於 4 月 24 日正式推出 V4 預覽版系列，以 MIT 許可協議開源，模型權重已同步上線 Hugging Face 及 ModelScope。根據 DeepSeek V4 技術報告，V4-Pro-Max（最高推理力度模式）在 Codeforces 基準取得 3206 分，超越 GPT-5.4。

兩款 MoE 模型架構規格

根據 DeepSeek V4 技術報告，V4 系列包含兩款混合專家（MoE）模型：

V4-Pro：總參數 1.6T，每 token 激活 49B，支援 1M token 上下文

V4-Flash：總參數 284B，每 token 激活 13B，同樣支援 1M token 上下文

根據技術報告，V4-Pro 在 1M 上下文下的單 token 推理 FLOPs 僅為 V3.2 的 27%，KV 緩存降至 V3.2 的 10%，主要得益於混合注意力機制（壓縮稀疏注意力 CSA ＋重度壓縮注意力 HCA）的架構升級。預訓練數據規模超過 32T token；訓練優化器更新為 Muon。

後訓練方法論：在線策略蒸餾取代混合強化學習

根據 DeepSeek V4 技術報告，V4 後訓練的核心更新在於以在線策略蒸餾（On-Policy Distillation，OPD）完全取代 V3.2 的混合強化學習（mixed RL）階段。新流程分為兩步：首先針對數學、程式碼、Agent 及指令跟隨等領域分別訓練領域專家（SFT ＋ GRPO 強化學習）；隨後以多教師 OPD 將十餘個專家的能力蒸餾至統一模型，透過 logit 對齊避免傳統方法中常見的能力衝突。

報告同時引入生成式獎勵模型（Generative Reward Model，GRM），針對難以用規則驗證的任務，以少量多樣化人工標注數據訓練，讓模型同時承擔生成與評估功能。

基準測試成績：編碼領先，知識推理仍有差距

根據 DeepSeek V4 技術報告，V4-Pro-Max 與 Opus 4.6 Max、GPT-5.4 xHigh 及 Gemini 3.1 Pro High 的對比結果（不含近期發布的 GPT-5.5 及 Opus 4.7）：

Codeforces：3206（GPT-5.4：3168 / Gemini 3.1 Pro：3052）→ 全場最高

LiveCodeBench：93.5 → 全場最高

SWE Verified：80.6，落後 Opus 4.6 的 80.8 差 0.2 個百分點

GPQA Diamond：90.1，落後 Gemini 3.1 Pro 的 94.3

SimpleQA-Verified：57.9，落後 Gemini 3.1 Pro 的 75.6

HLE：37.7，落後 Gemini 3.1 Pro 的 44.4

技術報告同時指出，上述對比不含最近發布的 GPT-5.5 及 Opus 4.7，V4 與最新一代閉源模型的差距有待第三方評測驗證。

常見問題

DeepSeek V4 預覽版的開源授權條款為何，可在哪裡取得？

根據 DeepSeek 4 月 24 日的官方公告，V4 系列以 MIT 許可協議開源，模型權重已上線 Hugging Face 及 ModelScope，適用於商業與學術用途。

DeepSeek V4-Pro 與 V4-Flash 的參數規模有何差異？

根據 DeepSeek V4 技術報告，V4-Pro 總參數為 1.6T，每 token 激活 49B；V4-Flash 總參數為 284B，每 token 激活 13B，兩款均支援 1M token 上下文。

DeepSeek V4-Pro-Max 與 GPT-5.4 及 Gemini 3.1 Pro 的基準比較結果為何？

根據 DeepSeek V4 技術報告，V4-Pro-Max 在 Codeforces（3206 分）及 LiveCodeBench（93.5）兩項基準超越 GPT-5.4 及 Gemini 3.1 Pro，但在知識密集型基準（GPQA Diamond、SimpleQA-Verified、HLE）上仍落後 Gemini 3.1 Pro；比較組不含 GPT-5.5 及 Opus 4.7。

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。