Google 發現讓本地 AI 速度提升最多 3 倍的方法——無需新增硬體

Decrypt · 2026-05-07T14:16:33+00:00

簡要說明 Google 發布了 Gemma 4 的多重代幣預測（MTP）草稿器，在推理階段實現了最高 3 倍的加速，且未降低輸出質量。這種技術——稱為推測解碼——使用一個輕量級的「草稿器」

2026-05-07 14:16:33

簡要說明

Google 發布了 Gemma 4 系列開源模型的多令牌預測（MTP）草稿器，在推理速度上提升最多 3 倍，且不影響輸出質量。
這項技術——稱為推測解碼——使用一個輕量級的“草稿”模型來同時預測多個令牌，然後主模型並行驗證，繞過了逐個令牌處理的瓶頸。
MTP 草稿器在 Hugging Face、Kaggle 和 Ollama 上提供，與 Gemma 4 採用相同的 Apache 2.0 授權，並與 vLLM、MLX 和 SGLang 等工具兼容。

在自己的電腦上運行 AI 模型很棒——直到不再如此。承諾是隱私、無訂閱費用，且資料不會離開你的機器。現實情況是，大多數人看到的是句子之間光標閃爍五秒。這個瓶頸有個名字：推理速度。它與模型的智能程度毫無關係。這是硬體問題。標準的 AI 模型一次生成一個詞碎片——稱為令牌——硬體必須將數十億個參數從記憶體傳送到計算單元，才能產生每個令牌。這是有意設計的緩慢。在消費者硬體上，這令人痛苦。

大多數人採用的解決方案是運行較小、較弱的模型——或是經過大量壓縮的量化模型，犧牲一些質量以換取速度。這兩種方案都不理想。你可以讓模型運行，但並非你真正想要的那個模型。現在 Google 有了不同的想法。該公司剛剛釋出了 Gemma 4 系列開源模型的多令牌預測（MTP）草稿器——一種技術，能在不影響模型質量或推理能力的情況下，提升最多 3 倍的速度。

這種方法稱為推測解碼，已經存在多年。Google 的研究人員在 2022 年發表了基礎論文。直到現在，這個想法才開始普及，因為它需要合適的架構來在大規模上運作。

以下是其運作的簡短版本。不是讓強大的大模型獨自完成所有工作，而是將它與一個微型的“草稿”模型配對。草稿模型快速且便宜——能在比主模型產生一個令牌所需時間更短的時間內，同時預測多個令牌。然後大模型一次性檢查所有這些猜測。如果猜測正確，整個序列就只需一個前向傳播的成本。根據 Google 的說法，“如果目標模型同意草稿，它會在一次前向傳播中接受整個序列——甚至在此過程中自行生成一個額外的令牌。” 沒有任何犧牲：例如，Gemma 4 的 31B 密集版本仍然會驗證每個令牌，輸出質量完全一致。你只是利用了在較慢部分閒置的計算能力。 Google 表示，草稿模型共享目標模型的 KV 快取——一個存儲已處理上下文的記憶結構——因此它們不會浪費時間重新計算大模型已知的內容。針對手機和 Raspberry Pi 設備設計的小型邊緣模型，團隊甚至建立了一種高效的聚類技術，以進一步縮短生成時間。這並不是 AI 領域唯一嘗試平行化文本生成的方法。基於擴散的語言模型——如 Inception Labs 的 Mercury——採用完全不同的方法：不是逐個預測令牌，而是從噪聲開始，迭代地細化整個輸出。這在理論上很快，但擴散式 LLM 難以匹配傳統變壓器模型的質量，使它們更像是研究上的好奇，而非實用工具。推測解碼不同，因為它根本不改變底層模型。它是一種服務優化，而非架構替代。你已經在運行的 Gemma 4 會變得更快。實際效果是顯著的。根據 Google 自己的基準測試，在 Nvidia RTX Pro 6000 桌面 GPU 上運行的 Gemma 4 26B 模型，啟用 MTP 草稿器後，令牌每秒約提升兩倍。在 Apple Silicon 上，批次大小為 4 到 8 請求時，速度提升約 2.2 倍。雖然未達到每個場景 3 倍的上限，但仍是“幾乎可用”與“真正足夠快”的重要差距。

這裡的背景很重要。當中國模型 DeepSeek 在 2025 年 1 月震撼市場——一天內就抹去了 Nvidia 6000 億美元的市值——核心教訓是效率提升比純粹增加計算力更有力。更聰明地運行比硬體越來越多更有效。Google 的 MTP 草稿器正是朝這個方向邁出的一步，專為消費者市場設計。整個 AI 行業目前像是一個三角形，涵蓋推理、訓練和記憶。每個領域的突破都會推動或震撼整個生態系。DeepSeek 的訓練方法（用較低端硬體打造強大模型）就是一例，而 Google 的 TurboQuant（在不失去質量的情況下縮減 AI 記憶）論文則是另一例。兩者都曾引發市場崩潰，因為公司試圖弄清楚下一步該怎麼走。 Google 表示，草稿器能實現“改善反應速度：大幅降低近實時聊天、沉浸式語音應用和代理工作流程的延遲”——這些任務都需要低延遲才能感覺有用。應用場景迅速聚焦：一個不會延遲的本地編碼助手；一個在你忘記問題前就回應的語音界面；一個不讓你在步驟間等待三秒的代理工作流程。所有這些，都可以在你已擁有的硬體上實現。 MTP 草稿器目前已在 Hugging Face、Kaggle 和 Ollama 上提供，採用 Apache 2.0 授權。它們可以即插即用，與 vLLM、MLX、SGLang 和 Hugging Face Transformers 兼容。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
Gate廣場五月交易分享
57.45萬熱度
#
#BTC回調
10632.09萬熱度
#
CLARITY法案推進受阻
328.98萬熱度
#
美股加密概念股走強
142.63萬熱度
#
Polymarket每日熱點
83.83萬熱度

Google 發現讓本地 AI 速度提升最多 3 倍的方法——無需新增硬體

簡要說明

熱門話題

Gate廣場五月交易分享

#BTC回調

CLARITY法案推進受阻

美股加密概念股走強

Polymarket每日熱點

置頂