DeepSeek V4 已到來——其專業版的價格比 GPT 5.5 Pro 低 98%

###簡要介紹

  • DeepSeek 發布了其新款 V4-Pro 模型,擁有 1.6 兆參數。
  • 每百萬輸入/輸出標記的成本為 1.74 美元/3.48 美元,約為 Claude Opus 4.7 的 1/20,並比 GPT 5.5 Pro 低 98%。
  • DeepSeek 部分在華為昇騰芯片上訓練 V4,規避美國出口限制,並表示到 2026 年晚些時候,當 950 個新超級節點上線後,Pro 模型已經很低的價格將進一步下降。

DeepSeek 回來了,就在 OpenAI 推出 GPT-5.5 幾個小時後出現。巧合嗎?也許吧。但如果你是中國的 AI 實驗室,美國政府過去三年一直試圖通過芯片出口禁令來放慢你的腳步,你的時機感會變得非常敏銳。 這個位於杭州的實驗室今天發布了 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的預覽版本,兩者都是開放權重,且都具有一百萬標記的上下文窗口。這意味著你基本上可以在模型崩潰之前,處理一個大約等同於《魔戒三部曲》的上下文大小。兩者的價格也遠低於西方同類產品,且對於能在本地運行的人來說,都是免費的。 DeepSeek 上一次的重大突破——2025 年 1 月的 R1——在一天之內就讓 Nvidia 的市值蒸發了 $600 十億美元,投資者質疑美國公司是否真的需要如此巨大的投資來產出一個中國小實驗室用更少成本就能實現的結果。V4 是另一種動作:更低調、更技術化,更專注於實際構建 AI 的效率。

兩個模型,工作任務截然不同  在這兩個新模型中,DeepSeek 的 V4-Pro 是重點,擁有 1.6 兆總參數。打個比方,參數是模型用來存儲知識和識別模式的內部“設置”或“腦細胞”——參數越多,理論上能存儲的資訊越複雜。這使它成為迄今為止 LLM 市場中最大的開源模型。這個規模聽起來可能很荒謬,直到你知道它每次推理只激活 490 億個參數。
這是 DeepSeek 自 V3 以來精煉的“專家混合”技巧:完整模型就擺在那裡,但只有相關部分會在任何請求中被激活。更多知識,成本相同。
“DeepSeek-V4-Pro-Max,DeepSeek-V4-Pro 的最大推理努力模式,顯著提升了開源模型的知識能力,堅定地確立了其作為當今最佳開源模型的地位,” DeepSeek 在 Huggingface 官方卡片上寫道。“它在編碼基準測試中表現出色,並在推理和代理任務上大幅縮小與領先封閉源模型的差距。”
V4-Flash 更實用:總參數為 284 億,活躍參數 130 億。它設計得更快、更便宜,根據 DeepSeek 自己的基準測試,“在給定更大的思考預算時,能達到與 Pro 版本相當的推理性能。”

兩者都支持一百萬標記的上下文。這大約是 75 萬字——大致相當於《魔戒》三部曲加上一點點。且這是標準功能,不是高級付費層級。 DeepSeek 的 (不那麼)秘密武器:讓注意力在大規模下也不糟糕 以下是技術部分,適合對模型背後魔法感興趣的技術宅或專業人士。DeepSeek 不藏秘密,所有內容都可免費獲取——完整論文已在 Github 上公開。 標準的 AI 注意力機制——讓模型理解詞與詞之間關係的機制——存在嚴重的擴展問題。每當你將上下文長度翻倍,計算成本大約會增加四倍。所以在一百萬標記上運行模型,不僅是 50 萬標記的兩倍,而是四倍。這也是為什麼長上下文一直是實驗室添加的勾選框,然後在速率限制後悄悄調低。 DeepSeek 發明了兩種新型注意力來解決這個問題。第一種,壓縮稀疏注意力(Compressed Sparse Attention),分兩步進行。它首先將一組標記——比如每 4 個標記——壓縮成一個條目。然後,不是對所有壓縮後的條目進行注意,而是用“閃電索引器”只挑選最相關的結果來回應查詢。你的模型從關注一百萬標記,變成只關注一個較小的、最重要的片段,就像圖書館員不讀每本書,但知道該去哪個書架找。 第二種,更激進的“重度壓縮注意力”(Heavily Compressed Attention),將每 128 個標記壓縮成一個條目——沒有稀疏選擇,只有殘酷的壓縮。你會失去細粒度的細節,但能獲得極其便宜的全局視圖。這兩種注意力類型交替層疊運行,模型因此兼具細節與全局。

技術論文的結論:在一百萬標記下,V4-Pro 使用的計算量僅為其前身 (V3.2) 的 27%。KV 快取——模型追蹤上下文所需的記憶——降至 V3.2 的 10%。V4-Flash 更進一步:計算量僅為 10%,記憶體僅為 7%。
這使得 DeepSeek 能以比競爭對手更低的價格提供相當的結果。用美元來說:GPT-5.5 昨天推出,輸入和輸出每百萬標記的價格分別為 $5 ,而 GPT-5.5 Pro 的價格則是 $30 每百萬輸入標記和 $30 每百萬輸出標記。

DeepSeek V4-Pro 的價格是每百萬輸入 1.74 美元,每百萬輸出 3.48 美元。V4-Flash 的價格是每百萬輸入 0.14 美元,每百萬輸出 0.28 美元。Cline 的 CEO Saoud Rizwan 指出,如果 Uber 使用 DeepSeek 取代 Claude,其 2026 年的 AI 預算——據報導足夠用四個月——將能持續七年。

deepseek v4 現在是最便宜的 sota 模型,成本僅為 opus 4.7 的 1/20。

以此為例,如果 Uber 用 deepseek 取代 Claude,他們的 2026 年 AI 預算本可持續 7 年,而非僅僅 4 個月。pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan $180 @sdrzn( 2026 年 4 月 24 日

基準測試 DeepSeek 在其技術報告中做了不同尋常的事情:它公開了差距。大多數模型發布時只挑選它們勝出的基準測試。DeepSeek 進行了完整比較,對比 GPT-5.4 和 Gemini-3.1-Pro,發現 V4-Pro 的推理能力比這些模型落後約三到六個月,但仍然公開披露了結果。 真正贏的地方:Codeforces,競技編程基準,類似人類國際象棋。V4-Pro 得分 3,206,約在實際人類參賽者的第 23 位。在 Apex Shortlist,一個篩選過的難題數學和 STEM 問題集,得分通過率達 90.2%,而 Opus 4.6 為 85.9%,GPT-5.4 為 78.1%。在 SWE-Verified(測試模型是否能解決來自實際開源倉庫的 GitHub 問題)中,得分 80.6%,與 Claude Opus 4.6 相當。

![])https://img-cdn.gateio.im/social/moments-51d4cda8e3-32b57da7d8-8b7abd-badf29(

落後之處:多任務基準 MMLU-Pro )Gemini-3.1-Pro 91.0% 對 V4-Pro 87.5%(,專家知識基準 GPQA Diamond )Gemini 94.3% 對 V4-Pro 90.1%(,以及人類最後考試(Humanity’s Last Exam),一個研究生級別的基準,Gemini-3.1-Pro 的 44.4% 仍然勝過 V4-Pro 的 37.7%。
在長上下文方面,V4-Pro 領先開源模型,並在 CorpusQA 基準測試(模擬實際文檔分析,標記數為一百萬)中擊敗 Gemini-3.1-Pro,但在 MRCR(測量模型在長篇大海中找到特定針的能力)測試中輸給 Claude Opus 4.6。

專為運行代理而非僅回答問題而設 這次釋出的代理能力部分,對於實際部署產品的開發者來說非常有趣。

V4-Pro 可以在 Claude Code、OpenCode 和其他 AI 編碼工具中運行。根據 DeepSeek 對 85 位開發者的內部調查,這些開發者將 V4-Pro 作為主要編碼代理,52% 表示它已準備好成為他們的預設模型,39% 傾向於是,少於 9% 表示否。內部員工表示,它的表現超過 Claude Sonnet,並在代理編碼任務上接近 Claude Opus 4.5。

![])https://img-cdn.gateio.im/social/moments-7950e97367-e6879bef39-8b7abd-badf29(

人工分析(Artificial Analysis)對 AI 模型在現實任務中的評估中,將 V4-Pro 排在所有開放權重模型的第一名,基於 GDPval-AA——一個測試金融、法律和研究任務中經濟價值知識的基準,通過 Elo 評分。V4-Pro-Max 得分 1,554 Elo,超過 GLM-5.1 的 1,535 和 MiniMax 的 M2.7 的 1,514。作為參考,Claude Opus 4.6 在同一基準上得分 1,619——仍然領先,但差距在縮小。

DeepSeek V4 Pro 是 GDPval-AA 上的第一名開放權重模型,我們的代理實務工作任務評估@deepseek_ai 發布了 V4 Pro )1.6T 總量 / 49B 活躍( 和 V4 Flash )284B 總量 / 13B 活躍(。V4 是 DeepSeek 自 V3 以來的首個新尺寸模型,所有中間模型… pic.twitter.com/2kJWVrKQjF

— 人工分析(Artificial Analysis) )@ArtificialAnlys( 2026 年 4 月 24 日

DeepSeek 的 V4 也引入了一個叫做“交錯思考”(interleaved thinking)的概念。在之前的模型中,如果你運行一個多工具調用的代理——比如先搜索網絡,然後執行一些代碼,再次搜索——模型的推理上下文會在每輪之間被清空。每個新步驟,模型都得從零重建其心智模型。V4 保留了完整的思考鏈,跨越工具調用,讓一個 20 步的代理流程不會中途失憶。這對於運行複雜自動化流程的任何人來說,比聽起來更重要。

DeepSeek 與美中 AI 之戰 自 2022 年起,美國一直限制向中國出口高端 Nvidia 芯片。官方目標是放慢中國 AI 發展,但芯片禁令並沒有阻止 DeepSeek,反而促使他們發明了更高效的架構,並建立了國內硬件供應鏈。 DeepSeek 並非在真空中發布 V4——近期 AI 領域活動頻繁:Anthropic 於 4 月 16 日推出 Claude Opus 4.7——一款在編碼和推理方面表現強勁、標記使用量高的模型。就在前一天,Anthropic 也推出了 Claude Mythos,一款他們稱因在自主網絡攻擊方面過於強大而不能公開的網絡安全模型。 小米於 4 月 22 日推出了 MiMo V2.5 Pro,實現全模態——圖像、音頻、視頻。每百萬標記的成本為 )輸入和 (輸出。它在大多數編碼基準測試中都能媲美 Opus 4.6。三個月前,沒有人把小米當作前沿 AI 公司。如今,它比大多數西方實驗室更快推出競爭模型。

OpenAI 的 GPT-5.5 昨天推出,輸出成本飆升至 )每百萬標記的價格,Pro 版本更高。它在 Terminal Bench 2.0 測試中擊敗 V4-Pro,分別為 82.7% 對 70.0%,測試複雜命令行代理流程。但在相同任務上,它的成本遠高於 V4-Pro。同一天,騰訊也發布了 Hy3,一款專注於效率的最先進模型。 這對你的意義 因此,面對如此多的新模型,開發者真正關心的問題是:何時值得付出高價? 對企業來說,數學可能已經改變。一個每百萬輸入標記僅需 1.74 美元的模型,意味著大規模文檔處理、法律審查或代碼生成流程,六個月前還很昂貴,現在則便宜得多。一百萬標記的上下文意味著你可以在一次請求中提交整個代碼庫或規範文件,而不用將它們拆分多次調用。 此外,它的開源特性意味著不僅可以在本地硬件上免費運行,還可以根據公司的需求和用例進行定制和改進。 對開發者和個人建造者來說,V4-Flash 是值得關注的模型。每百萬輸入 0.14 美元,每百萬輸出 0.28 美元,比一年前被視為預算選項的模型還要便宜——而且它能處理大多數與 Pro 版本相同的任務。DeepSeek 現有的 deepseek-chat 和 deepseek-reasoner 端點已經在非思考和思考模式下分別路由到 V4-Flash,所以如果你在用 API,你已經在用它了。 目前這些模型僅支持文本。DeepSeek 表示正在開發多模態能力,這意味著 Xiaomi 和 OpenAI 等其他大實驗室仍然擁有這一優勢。兩個模型都採用 MIT 授權,今天已在 Hugging Face 上提供。舊的 deepseek-chat 和 deepseek-reasoner 端點將於 2026 年 7 月 24 日停止服務。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言