DeepSeek 的 V4 訓練數據翻倍至 33T,引發不穩定性並延遲發布

Gate 新聞訊息,4 月 24 日——DeepSeek 的 V4 技術報告顯示,V4-Flash 與 V4-Pro 分別在 32T 與 33T tokens 上進行預訓練,比用於 V3 的約 15T tokens 翻了一倍。報告承認在訓練過程中遇到「重大不穩定性挑戰」,損失尖峰反覆發生,原因是 Mixture-of-Experts (MoE) 層中的異常;而路由機制本身也會加劇這些異常,單純的回滾也無法解決問題。

DeepSeek 現已在實際訓練中採用了兩項解決方案:預判式路由(Anticipatory Routing),用於將路由索引計算與主幹網路更新解耦,僅在偵測到損失尖峰時自動觸發,並 (增加約 20% 的開銷);以及 SwiGLU 限幅(SwiGLU Clamping),透過將啟動值直接夾限到固定範圍來直接抑制異常。報告表示這兩種方法都有效,但也承認「底層原理仍未被充分理解」。

Susan Zhang 是一位 Google DeepMind 研究員,曾在 Meta AI 與 OpenAI 工作。她表示,因訓練數據翻倍所觸發的不穩定性「解釋了延遲」。她將這兩項解決方案稱為「補丁(band-aids)」,同時也承認 DeepSeek 的技術透明度。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

DeepSeek 估值為 $45B ,中國國家半導體基金意欲領投

根據 ChainCatcher 報導,中國由國家支持的半導體投資基金正在洽談以領投 DeepSeek 的 A 輪融資,可能將該 AI 實驗室估值約 450 億美元。據四位熟悉此事的人士透露,融資談判仍在進行中

GateNews46分鐘前

微軟調查:僅 13% 企業獎勵 AI 驅動職場創新失敗的員工

根據微軟於 5 月 5 日發布的年度《工作趨勢指數》報告,該報告分析了數兆筆匿名 Microsoft 365 生產力訊號,並對美國、英國、印度及日本等多個市場的 20,000 名員工進行調查。報告數據顯示,僅 13% 的員工表示在嘗試以 AI 改善工作未獲預期成效時雇主會給予獎勵。

Market Whisper1小時前

Meta 開發 AI 助理 Hatch 對標 OpenClaw,6 月底前完成內測

據《金融時報》於 5 月 5 日報道,Meta 正在開發一款面向普通消費者的 AI 助理(Hatch),靈感來自 OpenAI 旗下的 OpenClaw,目標是在 6 月底前完成內部測試;Meta 同時計劃在今年第四季度前,將獨立的代理型購物工具整合至旗下 Instagram 服務。

Market Whisper1小時前

OpenAI 庭審 Brockman 作證:馬斯克曾稱不搞安全,股權會面險動粗

據《紐約郵報》於 5 月 6 日報道,OpenAI 總裁 Greg Brockman 於 5 月 5 日在加州奧克蘭聯邦地方法院出庭作證,披露馬斯克 2018 年退出 OpenAI 董事會時發表全員講話,稱他在特斯拉推進 AI 時「不會在安全上花時間」,2017 年與 OpenAI 聯合創始人就股權份額展開商議險動粗。

Market Whisper2小時前

Cloudflare:非人類流量如今已成多數,x402 基金會地址對應 Web 經濟學

Cloudflare 的首席策略官表示,目前超過一半的網路流量已非人類,凸顯由 AI 代理程式驅動的網路使用模式轉變。該公司指出 x402 Foundation 是一項關鍵計畫,正在建置能支撐可持續的數位內容經濟的基礎設施

Crypto Frontier3小時前
留言
0/400
暫無留言