A paper knocked down storage stocks.

作者:深潮 TechFlow

3 月 25 日,美股科技股普漲,納斯達克 100 指數飄紅,但有一類股票在逆勢流血:

閃迪收跌 3.50%,Micron 跌 3.4%,希捷跌 2.59%,西部數據跌 1.63%。整個存儲板塊像在一場派對上突然被人拉了電閘。

兇手是一篇論文,或者更準確地說,是 Google Research 對一篇論文的正式推廣。

這篇論文到底做了什麼

理解這件事,需要先搞清楚一個 AI 基礎設施裡鮮被外界關注的概念:KV Cache。

當你跟一個大語言模型對話,模型不會每次都從零開始理解你的問題。它會把整段對話的上下文,以一種叫做"鍵值對"(Key-Value Pair)的格式存在記憶裡,這就是 KV Cache,模型的短期工作記憶。

問題在於,KV Cache 的大小與上下文窗口的長度成正比增長。當上下文窗口達到百萬 token 量級時,KV Cache 消耗的 GPU 記憶體甚至可能超過模型本身的權重。對一個同時服務大量用戶的推理集群而言,這是真實的、每天都在燒錢的基礎設施瓶頸。

這篇論文的原始版本,最早出現在 2025 年 4 月的 arXiv 上,將在 ICLR 2026 正式發表。Google Research 將其命名為 TurboQuant,一個將 KV Cache 壓縮至 3 比特、記憶體至少減少 6 倍的無損量化算法,無需任何訓練或微調,開箱即用。

具體的技術路徑是兩步走:

第一步,PolarQuant。它不使用標準的笛卡爾座標系來表徵向量,而是將向量轉換為極座標——由"半徑"和一組"角度"構成——從根本上簡化了高維空間的幾何複雜性,使後續量化可以在更低的失真率下完成。

第二步,QJL(Quantized Johnson-Lindenstrauss)。在 PolarQuant 完成主要壓縮之後,TurboQuant 使用僅 1 比特的 QJL 變換,對殘餘誤差進行無偏校正,從而保證內積估計的精確性——這對 Transformer 注意力機制的正確運行至關重要。

結果:在涵蓋問答、程式碼生成和摘要任務的 LongBench 基準測試中,TurboQuant 匹配甚至超越了現有最優基線 KIVI 的表現;在"大海撈針"檢索任務上,實現了完美召回率;在 NVIDIA H100 上,4 比特 TurboQuant 對注意力邏輯運算的加速達到 8 倍。

傳統量化方法有個原罪:每壓縮一塊資料,都需要額外存儲"量化常數"來記錄如何解壓,這個元數據的開銷往往高達每個數值額外 1 到 2 比特,看起來不多,但在百萬 token 的上下文下,這些 bits 會以令人絕望的速度累積。TurboQuant 通過 PolarQuant 的幾何旋轉和 QJL 的 1 比特殘差校正,徹底消除了這一額外開銷。

市場為什麼慌了?

結論的直接性讓人很難忽視:一個需要 8 塊 H100 才能服務百萬 token 上下文的模型,理論上只需要 2 塊就夠了。推理服務商可以用同樣的硬體同時處理 6 倍以上的並發長上下文請求。

這對存儲板塊的核心敘事是一刀刺向要害。

過去兩年,Seagate、西部數據、Micron 之所以被 AI 資本熱潮抬上神壇,底層邏輯只有一個:大模型越來越能"記住"更多,長上下文窗口對記憶體的胃口沒有上限,存儲需求將持續爆炸式增長。Seagate 2025 年漲了超過 210%,公司本身 2026 年的產能早已售罄。

TurboQuant 的出現,直接挑戰了這個敘事的前提。

富國銀行科技分析師 Andrew Rocha 的評論最為直接:“隨著上下文窗口越來越大,KV Cache 中的數據存儲呈爆炸式增長,對記憶體的需求隨之攀升。TurboQuant 正在直接攻擊這條成本曲線……如果它能被廣泛採用,將從根本上令人質疑到底需要多大的記憶體容量。”

但 Rocha 也用了個關鍵前提:IF。

這件事真正值得爭論的部分

市場的反應是否過激了?答案大概率是:有點。

首先,8 倍加速的標題黨問題。多位分析師指出,這個 8 倍加速的對比基準,是用新技術與舊的 32 位非量化系統相比,而非與當前實際部署中已普遍優化的系統比較。真實的提升存在,但不像標題暗示的那樣戲劇性。

其次,論文只測試了小模型。TurboQuant 的所有評測,所用模型的參數量頂多在 80 億左右。真正讓存儲供應商日夜焦慮的,是 700 億甚至 4000 億參數的超大模型,那裡的 KV Cache 才是真正的天文數字。TurboQuant 在這些量級上的表現,目前仍是未知數。

第三,Google 自己還沒有發布任何官方代碼。截止目前,TurboQuant 不在 vLLM、llama.cpp、Ollama 和任何主流推理框架中。是社群開發者自己從論文數學推導中復現了早期實現,一個早期復現者明確指出,QJL 的誤差校正模組如果實現不當,輸出會直接變成亂碼。

但這並不意味著市場的擔憂是無中生有。

這是 2025 年 DeepSeek 時刻留下的集體肌肉記憶在發揮作用。那次事件教會了整個市場一個殘酷的教訓:算法層面的效率突破,能在一夜之間讓昂貴的硬體面貌全非。此後,任何來自頂級 AI 實驗室的效率突破,都會觸發硬體板塊的條件反射。

況且,這次的信號來自 Google Research,不是一家不見經傳的大學實驗室,這家公司有足夠的工程能力將論文轉化為生產級工具,而且它自己就是全球最大的 AI 推理消費者之一。一旦 TurboQuant 在內部落地,Waymo、Gemini、Google Search 的伺服器採購邏輯就會悄悄改變。

歷史反覆上演的那個劇本

這裡有一個經典爭論,值得認真對待:杰文斯悖論。

19 世紀經濟學家杰文斯發現,蒸汽機效率的提升,非但沒有減少英國的煤炭消耗,反而導致消耗大幅增加——因為效率提升降低了使用成本,反而刺激了更大規模的應用。

支持者的邏輯是:如果 Google 讓一個模型能在 16GB 顯存上運行,開發者不會就此收手,他們會用省下來的算力去運行 6 倍複雜的模型,處理更大的多模態數據,支持更長的上下文。軟體效率最終解鎖的,是那些此前因成本過高而根本無法觸及的需求層。

但這個反駁有個前提:市場需要時間來消化和重新擴張。在 TurboQuant 從論文變成生產工具、從生產工具變成行業標準的這段時間裡,硬體需求的擴張能否足夠快地填補效率帶來的"缺口"?

沒有人知道答案。市場正在為這個不確定性定價。

這件事對 AI 行業的真正意義

比存儲股的漲跌更值得關注的,是 TurboQuant 揭示的一個更深層趨勢。

AI 軍備競賽的主戰場,正在從"堆算力"向"極致效率"遷移。

TurboQuant 如果能在大規模模型上證明自己的性能承諾,將帶來一個根本性的轉變:長上下文推理從"只有頂級實驗室才負擔得起的奢侈品",變成默認的行業標準。

而這場效率競賽的賽點,恰恰也是 Google 最擅長的領域,數學上近乎最優的壓縮算法,底層是 Shannon 信息論的極限追逐,而不是暴力的工程堆砌。TurboQuant 的理論失真率,只比信息論下界高約 2.7 倍的常數因子。

這意味著,類似的突破未來不會只有一個。它代表的是一整條研究路徑正在走向成熟。

對存儲行業而言,更清醒的問題或許不是“這次會不會影響需求”,而是:當 AI 推理的成本曲線持續被軟體層壓低,硬體層的護城河還能寬到什麼程度?

目前的答案是:還很寬,但沒有寬到可以對這類信號置之不理的程度。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言