10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Google 發現讓本地 AI 速度提升最多 3 倍的方法——無需新增硬體
簡要說明
在自己的電腦上運行 AI 模型很棒——直到不再如此。 承諾是隱私、無訂閱費用,且資料不會離開你的機器。現實情況是,大多數人看到的是句子之間光標閃爍五秒。 這個瓶頸有個名字:推理速度。它與模型的智能程度毫無關係。這是硬體問題。標準的 AI 模型一次生成一個詞碎片——稱為令牌——硬體必須將數十億個參數從記憶體傳送到計算單元,才能產生每個令牌。這是有意設計的緩慢。在消費者硬體上,這令人痛苦。
大多數人採用的解決方案是運行較小、較弱的模型——或是經過大量壓縮的量化模型,犧牲一些質量以換取速度。這兩種方案都不理想。你可以讓模型運行,但並非你真正想要的那個模型。 現在 Google 有了不同的想法。該公司剛剛釋出了 Gemma 4 系列開源模型的多令牌預測(MTP)草稿器——一種技術,能在不影響模型質量或推理能力的情況下,提升最多 3 倍的速度。
這種方法稱為推測解碼,已經存在多年。Google 的研究人員在 2022 年發表了基礎論文。直到現在,這個想法才開始普及,因為它需要合適的架構來在大規模上運作。
以下是其運作的簡短版本。不是讓強大的大模型獨自完成所有工作,而是將它與一個微型的“草稿”模型配對。草稿模型快速且便宜——能在比主模型產生一個令牌所需時間更短的時間內,同時預測多個令牌。然後大模型一次性檢查所有這些猜測。如果猜測正確,整個序列就只需一個前向傳播的成本。 根據 Google 的說法,“如果目標模型同意草稿,它會在一次前向傳播中接受整個序列——甚至在此過程中自行生成一個額外的令牌。” 沒有任何犧牲:例如,Gemma 4 的 31B 密集版本仍然會驗證每個令牌,輸出質量完全一致。你只是利用了在較慢部分閒置的計算能力。 Google 表示,草稿模型共享目標模型的 KV 快取——一個存儲已處理上下文的記憶結構——因此它們不會浪費時間重新計算大模型已知的內容。針對手機和 Raspberry Pi 設備設計的小型邊緣模型,團隊甚至建立了一種高效的聚類技術,以進一步縮短生成時間。 這並不是 AI 領域唯一嘗試平行化文本生成的方法。基於擴散的語言模型——如 Inception Labs 的 Mercury——採用完全不同的方法:不是逐個預測令牌,而是從噪聲開始,迭代地細化整個輸出。這在理論上很快,但擴散式 LLM 難以匹配傳統變壓器模型的質量,使它們更像是研究上的好奇,而非實用工具。 推測解碼不同,因為它根本不改變底層模型。它是一種服務優化,而非架構替代。你已經在運行的 Gemma 4 會變得更快。 實際效果是顯著的。根據 Google 自己的基準測試,在 Nvidia RTX Pro 6000 桌面 GPU 上運行的 Gemma 4 26B 模型,啟用 MTP 草稿器後,令牌每秒約提升兩倍。在 Apple Silicon 上,批次大小為 4 到 8 請求時,速度提升約 2.2 倍。雖然未達到每個場景 3 倍的上限,但仍是“幾乎可用”與“真正足夠快”的重要差距。
這裡的背景很重要。當中國模型 DeepSeek 在 2025 年 1 月震撼市場——一天內就抹去了 Nvidia 6000 億美元的市值——核心教訓是效率提升比純粹增加計算力更有力。更聰明地運行比硬體越來越多更有效。Google 的 MTP 草稿器正是朝這個方向邁出的一步,專為消費者市場設計。 整個 AI 行業目前像是一個三角形,涵蓋推理、訓練和記憶。每個領域的突破都會推動或震撼整個生態系。DeepSeek 的訓練方法(用較低端硬體打造強大模型)就是一例,而 Google 的 TurboQuant(在不失去質量的情況下縮減 AI 記憶)論文則是另一例。兩者都曾引發市場崩潰,因為公司試圖弄清楚下一步該怎麼走。 Google 表示,草稿器能實現“改善反應速度:大幅降低近實時聊天、沉浸式語音應用和代理工作流程的延遲”——這些任務都需要低延遲才能感覺有用。 應用場景迅速聚焦:一個不會延遲的本地編碼助手;一個在你忘記問題前就回應的語音界面;一個不讓你在步驟間等待三秒的代理工作流程。所有這些,都可以在你已擁有的硬體上實現。 MTP 草稿器目前已在 Hugging Face、Kaggle 和 Ollama 上提供,採用 Apache 2.0 授權。它們可以即插即用,與 vLLM、MLX、SGLang 和 Hugging Face Transformers 兼容。