Gate News 消息,4月22日——普林斯顿大学 PhD 学生 Yifan Zhang 在 X 上披露了 DeepSeek V4 的完整技术规格,此前于 4月19日进行了预览。V4 拥有 1.6 万亿(1.6 trillion)总参数,并提供轻量化变体 V4-Lite,参数规模为 2850 亿(285 billion)。
该模型采用 DSA2 注意力机制,该机制结合了 DeepSeek 先前在 V3.2 中的 DSA (DeepSeek Sparse Attention) 以及 NSA (Native Sparse Attention)(并配备 512 维的头部嵌入),再配套使用稀疏多查询注意力 (MQA) 与滑动窗口注意力 (SWA)。MoE (Mixture of Experts) 层包含 384 位专家,每次前向传递激活 6 位,使用 Fused MoE Mega-Kernel。残差连接采用 Hyper-Connections 架构。
首次披露的训练细节包括:使用 Muon 优化器 (applying Newton-Schulz orthogonalization to momentum updates),32K token 的预训练上下文窗口,以及在强化学习期间使用 GRPO (Group Relative Policy Optimization) 并进行 KL 散度修正。最终上下文窗口扩展至 100 万(1 million)tokens。该模型为仅文本模型。
Zhang 并未受雇于 DeepSeek,公司也尚未对所披露信息作出官方评论。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Cipher Digital 获得 $200M 信用额度,以扩展 AI 和 HPC 数据中心
据 Globenewswire,Cipher Digital(纳斯达克上市的比特币矿企)从全球金融机构获得 2 亿美元的循环信贷额度,以增强流动性并加速其 AI 和高性能计算(HPC)数据中心平台的扩张。该公司公布了 Q1
GateNews38 分钟前
Quantum Leap 完成 $200M IPO,寻求区块链和 AI 收购
据 Businesswire 称,5 月 5 日,特殊目的收购公司 Quantum Leap 完成了 2 亿美元的首次公开募股,并以 QLEPU 作为股票代码开始在纽约证券交易所交易。该公司计划将募集资金用于寻求收购和并购交易 i
GateNews44 分钟前
Google、Microsoft、xAI 同意允许美国政府在 AI 模型公开发布前访问
据美国商务部周二的一份声明称,Alphabet 的 Google、Microsoft 和 xAI 已同意允许政府在其 AI 模型发布前进行预先审查和安全评估的早期访问。美国商务部的 AI 标准与创新中心将开展其
GateNews1小时前
福布斯:如果 SBF 没有被监禁,其早期投资组合当前估值最高可达 1000 亿美元
据 Forbes,SBF 的早期投资组合正在被市场重新评估,理论上的财富增益可能最高约 1000 亿美元——如果他在 FTX 崩盘后没有被监禁的话。在 FTX 崩盘之前,SBF 投资了多家知名公司
GateNews1小时前
法律 AI 初创公司 Jurisphere 从 InfoEdge 和 Flourish Ventures 融资 220 万美元
据 Jurisphere 称,这家法律 AI 初创公司已从 InfoEdge Ventures 和 Flourish Ventures 获得 220 万美元融资。该资金将用于支持平台扩张,并推出一个市场平台,通过其 AI 工作区将客户与律师连接起来。Jurisphere 的软件目前
GateNews2小时前
香港投资推广署启动第九个快速通道计划 2026,覆盖包括区块链在内的 8 个领域
根据香港投资推广署,第九届“快速通道”项目 2026 于 5 月 5 日开放报名,申请截止日期为 9 月 25 日。该项目首次推出八个领域,包括区块链与数字资产、金融科技和保险科技、人工智能应用于
GateNews3小时前