Gate News 消息,4月24日——DeepSeek 的 V4 技术报告显示,V4-Flash 和 V4-Pro 分别在 32T 和 33T token 上进行了预训练,相较于 V3 使用的约 15T token 翻了一倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,损失尖峰反复出现,是由于 Mixture-of-Experts (MoE) 层中的异常;路由机制本身会加剧这些异常,而简单的回滚也无法解决问题。
DeepSeek 目前已落地到实际训练中的两项解决方案:预判式路由(Anticipatory Routing),它将路由索引计算与骨干网络更新解耦,并仅在检测到损失尖峰时自动触发 (增加约 20% 的开销),以及 SwiGLU 夹持(SwiGLU Clamping),通过直接将激活值夹持到固定范围来抑制异常。报告称这两种方案都有效,但承认“底层原理仍未被充分理解”。
Susan Zhang(谷歌 DeepMind 研究员,曾在 Meta AI 和 OpenAI 工作)评论称,由于训练数据翻倍所触发的不稳定性“解释了延迟”。她将这两种解决方案描述为“补丁(band-aids)”,同时也承认了 DeepSeek 的技术透明度。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Coinbase 工程师:AI 代理可能会颠覆网络广告模式
Coinbase 工程师 Erik Reppel 表示,人工智能代理可能从根本上动摇依赖互联网广告的商业模式。根据 Reppel 的说法,网络经济在很大程度上依赖于来自人类用户的广告收入,但 AI 代理会绕过该系统。
Crypto Frontier21 分钟前
xAI 与 Anthropic 合作,提供 Colossus 计算访问权限
根据 xAI 和 Anthropic 的官方声明,这两家公司已建立了一项新的计算合作伙伴关系。SpaceX 的 xAI 已签署协议,为 Anthropic 提供对 Colossus 计算资源的访问权限。Anthropic 计划利用这额外的计算能力来
GateNews42 分钟前
OpenAI 发布 MRC 超级计算机网络协议!携手 NVIDIA、AMD、微软打造 Stargate 基础设施
OpenAI 公布 AI 超级计算机网络协议 MRC,与 AMD、Microsoft、NVIDIA 等合作并在 OCP 开源。MRC 将数据分拆同时走多条路径,在微秒级避障、降低拥塞,维持 GPU 同步,解决大型训练集群的传输瓶颈。Stargate 德州 Abilene 等基地已部署 800Gb/s 接口并投入实际训练。
鏈新聞abmedia1小时前
AI 招聘平台 Ethos 完成 2200 万美元 A 轮融资,由 a16z 于 5 月 6 日领投
据 BlockBeats 称,总部位于伦敦的 AI 招聘平台 Ethos 于 5 月 6 日完成了 2275 万美元的 A 轮融资,Andreessen Horowitz(a16z)领投,General Catalyst 参与。该平台使用 AI 面试候选人并分析
GateNews1小时前
OpenAI 与 AMD、Intel、NVIDIA 推出 MRC Network 协议;支持 10 万+ GPU
根据 OpenAI 于 5 月 6 日发布的公告,该公司与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 合作推出多路径可靠连接(Multipath Reliable Connection, MRC),这是一种用于大规模 AI 训练集群 GPU 互联的开放网络协议。该协议将单次数据传输拆分为
GateNews3小时前
Hut 8 股价因 98 亿美元的 AI 数据中心租赁协议飙升 34%
据 The Block 称,Hut 8 Corp 的股价在今日盘前交易中上涨 34%,至 107.87 美元,此前该公司签署了一份价值 98 亿美元的租赁协议,拟在德克萨斯州 Nueces County 建设人工智能数据中心园区,并将其设计基于 NVIDIA 的计算架构。该交易代表 Hu
GateNews3小时前