最高提速3倍且零损耗,谷歌开源Gemma4全系MTP投机解码模型

区块律动

据 动察 Beating 监测,谷歌发布并开源了 Gemma 4 系列的多 token 预测(MTP)草稿模型。这是一个采用投机解码(speculative decoding)架构的轻量级辅助模型,能在主模型保留最终验证权的基础上,实现最高 3 倍的推理提速,且完全不损耗输出质量和逻辑推理能力。

标准的大语言模型每次只能生成一个 token,容易受到显存带宽瓶颈限制并造成算力闲置。MTP 方案让轻量级的草稿模型利用闲置算力,提前一次性预测多个未来 token,再交由 31B 等重型目标模型并行验证。若目标模型同意草稿,就会一次性接收整段序列。为进一步提效,草稿模型直接共享了目标模型的激活状态和 KV 缓存(存储历史上下文以避免重复计算);针对端侧的 E2B 和 E4B 模型,团队还在嵌入层引入了聚类技术。

目前,MTP 模型已采用与 Gemma 4 相同的 Apache 2.0 协议全面开源,并原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。这次提速优化显著降低了应用门槛,使开发者能在普通消费级显卡上流畅运行 26B MoE 和 31B 稠密模型,也能在移动设备上以更低的功耗支撑实时 AI 交互。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Fortinet 报告称 2025 年勒索软件案件激增 389%,至 7,831 起

根据 Fortinet,全球勒索软件案件在 2025 年同比增长 389%,达到 7,831 起,网络犯罪分子利用 AI 并加速对软件漏洞的攻击。制造业是受攻击最严重的行业,案件数为 1,284 起,其次是商业服务业 824 起,零售业 682 起。 Fortine

GateNews14 分钟前

黑石、KKR、EQT 正与 Alphabet 就 AI 投资组合交易进行洽谈

据彭博社报道,黑石(Blackstone)、KKR 以及总部位于瑞典的 EQT 正与 Alphabet 沟通,拟通过面向整个投资组合的合同,为其投资组合公司提供使用谷歌 AI 模型的权限。上述讨论为非排他性,可能不会达成交易。该安排将让谷歌拥有更广泛的

GateNews24 分钟前

芬兰 AI 实验室 QuTwo 在 $29M 估值下完成 $380M 种子轮;创始人的先前公司 Silo AI 以 6.65 亿美元出售给 AMD

据 Beating 称,芬兰 AI 实验室 QuTwo 完成了一笔 2500 万欧元(约 2900 万美元)的种子轮融资,投后估值为 3.25 亿欧元(约 3.8 亿美元)。创始人兼执行董事长 Peter Sarlin 之前创办了 Silo AI,该公司于 2024 年被 AMD 以 6.65 亿美元收购。

GateNews54 分钟前

DeepSeek 估值为 $45B ,随着中国国家半导体基金瞄准领投

据 ChainCatcher 称,中国由国家支持的半导体投资基金正在与 DeepSeek 的 A 轮融资领投方进行磋商,可能对该 AI 实验室的估值约为 450 亿美元。根据 4 位知情人士透露,融资谈判仍在进行中

GateNews1小时前

微软调查:只有 13% 的企业奖励 AI 驱动的职场创新失败的员工

根据微软于 5 月 5 日发布的年度《工作趋势指数》报告,该报告分析了数兆个匿名 Microsoft 365 生产力信号,并对美国、英国、印度及日本等多个市场的 20,000 名员工进行调查。报告数据显示,只有 13% 的员工表示在尝试以 AI 改善工作未获预期成效时雇主会给予奖励。

Market Whisper2小时前

Meta 开发 AI 助理 Hatch 对标 OpenClaw,6 月底前完成内测

据《金融时报》于 5 月 5 日报道,Meta 正在开发一款面向普通消费者的 AI 助理(Hatch),灵感来自 OpenAI 旗下的 OpenClaw,目标是在 6 月底前完成内部测试;Meta 同时计划在今年第四季度前,将独立的代理型购物工具整合至旗下 Instagram 服务。

Market Whisper2小时前
评论
0/400
暂无评论