A paper knocked down storage stocks.

深潮 TechFlow

2026-03-26 01:25:52

作者：深潮 TechFlow

3 月 25 日，美股科技股普漲，納斯達克 100 指數飄紅，但有一類股票在逆勢流血：

閃迪收跌 3.50%，Micron 跌 3.4%，希捷跌 2.59%，西部數據跌 1.63%。整個存儲板塊像在一場派對上突然被人拉了電閘。

兇手是一篇論文，或者更準確地說，是 Google Research 對一篇論文的正式推廣。

這篇論文到底做了什麼

理解這件事，需要先搞清楚一個 AI 基礎設施裡鮮被外界關注的概念：KV Cache。

當你跟一個大語言模型對話，模型不會每次都從零開始理解你的問題。它會把整段對話的上下文，以一種叫做"鍵值對"（Key-Value Pair）的格式存在記憶裡，這就是 KV Cache，模型的短期工作記憶。

問題在於，KV Cache 的大小與上下文窗口的長度成正比增長。當上下文窗口達到百萬 token 量級時，KV Cache 消耗的 GPU 記憶體甚至可能超過模型本身的權重。對一個同時服務大量用戶的推理集群而言，這是真實的、每天都在燒錢的基礎設施瓶頸。

這篇論文的原始版本，最早出現在 2025 年 4 月的 arXiv 上，將在 ICLR 2026 正式發表。Google Research 將其命名為 TurboQuant，一個將 KV Cache 壓縮至 3 比特、記憶體至少減少 6 倍的無損量化算法，無需任何訓練或微調，開箱即用。

具體的技術路徑是兩步走：

第一步，PolarQuant。它不使用標準的笛卡爾座標系來表徵向量，而是將向量轉換為極座標——由"半徑"和一組"角度"構成——從根本上簡化了高維空間的幾何複雜性，使後續量化可以在更低的失真率下完成。

第二步，QJL（Quantized Johnson-Lindenstrauss）。在 PolarQuant 完成主要壓縮之後，TurboQuant 使用僅 1 比特的 QJL 變換，對殘餘誤差進行無偏校正，從而保證內積估計的精確性——這對 Transformer 注意力機制的正確運行至關重要。

結果：在涵蓋問答、程式碼生成和摘要任務的 LongBench 基準測試中，TurboQuant 匹配甚至超越了現有最優基線 KIVI 的表現；在"大海撈針"檢索任務上，實現了完美召回率；在 NVIDIA H100 上，4 比特 TurboQuant 對注意力邏輯運算的加速達到 8 倍。

傳統量化方法有個原罪：每壓縮一塊資料，都需要額外存儲"量化常數"來記錄如何解壓，這個元數據的開銷往往高達每個數值額外 1 到 2 比特，看起來不多，但在百萬 token 的上下文下，這些 bits 會以令人絕望的速度累積。TurboQuant 通過 PolarQuant 的幾何旋轉和 QJL 的 1 比特殘差校正，徹底消除了這一額外開銷。

市場為什麼慌了？

結論的直接性讓人很難忽視：一個需要 8 塊 H100 才能服務百萬 token 上下文的模型，理論上只需要 2 塊就夠了。推理服務商可以用同樣的硬體同時處理 6 倍以上的並發長上下文請求。

這對存儲板塊的核心敘事是一刀刺向要害。

過去兩年，Seagate、西部數據、Micron 之所以被 AI 資本熱潮抬上神壇，底層邏輯只有一個：大模型越來越能"記住"更多，長上下文窗口對記憶體的胃口沒有上限，存儲需求將持續爆炸式增長。Seagate 2025 年漲了超過 210%，公司本身 2026 年的產能早已售罄。

TurboQuant 的出現，直接挑戰了這個敘事的前提。

富國銀行科技分析師 Andrew Rocha 的評論最為直接：“隨著上下文窗口越來越大，KV Cache 中的數據存儲呈爆炸式增長，對記憶體的需求隨之攀升。TurboQuant 正在直接攻擊這條成本曲線……如果它能被廣泛採用，將從根本上令人質疑到底需要多大的記憶體容量。”

但 Rocha 也用了個關鍵前提：IF。

這件事真正值得爭論的部分

市場的反應是否過激了？答案大概率是：有點。

首先，8 倍加速的標題黨問題。多位分析師指出，這個 8 倍加速的對比基準，是用新技術與舊的 32 位非量化系統相比，而非與當前實際部署中已普遍優化的系統比較。真實的提升存在，但不像標題暗示的那樣戲劇性。

其次，論文只測試了小模型。TurboQuant 的所有評測，所用模型的參數量頂多在 80 億左右。真正讓存儲供應商日夜焦慮的，是 700 億甚至 4000 億參數的超大模型，那裡的 KV Cache 才是真正的天文數字。TurboQuant 在這些量級上的表現，目前仍是未知數。

第三，Google 自己還沒有發布任何官方代碼。截止目前，TurboQuant 不在 vLLM、llama.cpp、Ollama 和任何主流推理框架中。是社群開發者自己從論文數學推導中復現了早期實現，一個早期復現者明確指出，QJL 的誤差校正模組如果實現不當，輸出會直接變成亂碼。

但這並不意味著市場的擔憂是無中生有。

這是 2025 年 DeepSeek 時刻留下的集體肌肉記憶在發揮作用。那次事件教會了整個市場一個殘酷的教訓：算法層面的效率突破，能在一夜之間讓昂貴的硬體面貌全非。此後，任何來自頂級 AI 實驗室的效率突破，都會觸發硬體板塊的條件反射。

況且，這次的信號來自 Google Research，不是一家不見經傳的大學實驗室，這家公司有足夠的工程能力將論文轉化為生產級工具，而且它自己就是全球最大的 AI 推理消費者之一。一旦 TurboQuant 在內部落地，Waymo、Gemini、Google Search 的伺服器採購邏輯就會悄悄改變。

歷史反覆上演的那個劇本

這裡有一個經典爭論，值得認真對待：杰文斯悖論。

19 世紀經濟學家杰文斯發現，蒸汽機效率的提升，非但沒有減少英國的煤炭消耗，反而導致消耗大幅增加——因為效率提升降低了使用成本，反而刺激了更大規模的應用。

支持者的邏輯是：如果 Google 讓一個模型能在 16GB 顯存上運行，開發者不會就此收手，他們會用省下來的算力去運行 6 倍複雜的模型，處理更大的多模態數據，支持更長的上下文。軟體效率最終解鎖的，是那些此前因成本過高而根本無法觸及的需求層。

但這個反駁有個前提：市場需要時間來消化和重新擴張。在 TurboQuant 從論文變成生產工具、從生產工具變成行業標準的這段時間裡，硬體需求的擴張能否足夠快地填補效率帶來的"缺口"？

沒有人知道答案。市場正在為這個不確定性定價。

這件事對 AI 行業的真正意義

比存儲股的漲跌更值得關注的，是 TurboQuant 揭示的一個更深層趨勢。

AI 軍備競賽的主戰場，正在從"堆算力"向"極致效率"遷移。

TurboQuant 如果能在大規模模型上證明自己的性能承諾，將帶來一個根本性的轉變：長上下文推理從"只有頂級實驗室才負擔得起的奢侈品"，變成默認的行業標準。

而這場效率競賽的賽點，恰恰也是 Google 最擅長的領域，數學上近乎最優的壓縮算法，底層是 Shannon 信息論的極限追逐，而不是暴力的工程堆砌。TurboQuant 的理論失真率，只比信息論下界高約 2.7 倍的常數因子。

這意味著，類似的突破未來不會只有一個。它代表的是一整條研究路徑正在走向成熟。

對存儲行業而言，更清醒的問題或許不是“這次會不會影響需求”，而是：當 AI 推理的成本曲線持續被軟體層壓低，硬體層的護城河還能寬到什麼程度？

目前的答案是：還很寬，但沒有寬到可以對這類信號置之不理的程度。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
幣圈生存指南
11.56萬熱度
#
貴金屬領漲
31.09萬熱度
#
加密市場回漲
6.2萬熱度
#
美伊對停火談判各執一詞
31.86萬熱度
#
穩定幣去利息化博弈升溫
580.83萬熱度

熱門 Gate Fun
查看更多

1
vvsweet
sweet little
市值:$2335.26持有人數:2
0.37%
2
usdt
usd
市值:$2279.31持有人數:1
0.00%
3
NB
牛逼人生
市值:$0.1持有人數:1
0.00%
4
XM
熊猫
市值:$2282.75持有人數:1
0.00%
5
JL
剑来
市值:$2282.75持有人數:1
0.00%

A paper knocked down storage stocks.

熱門話題

幣圈生存指南

貴金屬領漲

加密市場回漲

美伊對停火談判各執一詞

穩定幣去利息化博弈升溫

熱門 Gate Fun

vvsweet

sweet little

usdt

usd

NB

牛逼人生

XM

熊猫

JL

剑来

置頂