在大模型參數突破兆級的 AI 競賽中,GPU 算力固然是焦點,但有一個更隱晦、卻決定上限的組件,正成為產業爭奪的制高點——高頻寬記憶體(High Bandwidth Memory, HBM)。如果將 GPU 比喻為擁有上萬汽缸的超高性能引擎,那麼 HBM 就是為其持續供應資料的燃料系統。一旦供油跟不上,再強大的引擎也只能空轉。
業界普遍意識到,AI 算力瓶頸已不再侷限於運算單元本身,而是更多卡在資料搬運效率上。數據顯示,在傳統運算架構中,資料搬運的能耗往往佔系統總能耗的 60% 至 80%。在推論場景下,GPU 的算力閒置率甚至可達 99%。這背後的一個關鍵限制因素,正是記憶體頻寬。
HBM 憑藉 3D 堆疊與矽通孔(TSV)技術,在單位面積內實現遠超傳統記憶體的頻寬與能效,已成為 NVIDIA、AMD、Google 等巨頭 AI 加速器的標準配備。
技術原理:HBM 如何重構 GPU 與記憶體的資料通道
從「平面跑車」到「垂直電梯」
HBM 並非一種全新的儲存媒介,而是一套定義「如何讓 DRAM 以極高頻寬互連」的介面與封裝技術規範。其核心技術路徑可拆解為三個層面:
3D 堆疊——將多層 DRAM 晶片垂直堆疊在一起(目前主流為 8 層至 12 層,HBM4 已推進至 16 層),在相同的物理面積上成倍提升儲存密度與並行通道數。
矽通孔(TSV)——在每層 DRAM 晶片內部蝕刻直徑僅 5-10 微米的微孔,填充導電材料形成垂直通道,實現層間萬級互聯。這與傳統 PCB 佈線形成鮮明對比:傳統方案的走線長度以公分甚至公尺計,而 TSV 的訊號傳輸距離被壓縮至微米級,從而大幅降低訊號衰減與延遲。
矽中介層(Interposer)——HBM 堆疊透過微凸塊與矽中介層連接,中介層再與 GPU/CPU 晶片在極短距離內互連,形成統一的封裝模組。整個結構透過 CoWoS 等 2.5D 先進封裝技術實現高密度整合。
這套架構帶來的核心突破在於匯流排寬度。一個 HBM 堆疊的匯流排寬度通常為 1024 位元,而 HBM3E 更可擴展至 2048 位元。以 SK 海力士最新量產的 HBM3E 為例,單顆容量已達 24GB,頻寬突破 1TB/s。相比之下,傳統 GDDR 方案的位元寬僅 32 位元(單顆)或 384 位元(多顆組合),兩者的資料傳輸能力存在數量級差異。
HBM 的底層設計邏輯是「寬而慢」——透過極大量的並行通道換取總頻寬,每個通道運作在相對較低頻率,因此能效明顯優於高頻方案。而 GDDR 的邏輯是「窄而快」——依靠更高的工作頻率,從少數通道中榨取頻寬。這兩種設計哲學適用於完全不同的應用場景:HBM 追求極致吞吐量,GDDR 則在吞吐量與成本之間尋求平衡。
HBM vs GDDR6:一場「寬而慢」與「窄而快」的對決
HBM 與 GDDR6 同屬 DRAM 記憶體家族,核心使命都是為 GPU 提供資料存取通道,但兩者在設計目標、效能特性與成本結構上存在本質差異。
頻寬:HBM3E 單堆疊頻寬可達 1.2TB/s,下一代 HBM4 預計將提升至 2.0TB/s 以上。GDDR6X 的單卡極限頻寬約 1TB/s,在頂級產品中已接近物理極限。但從單位頻寬的能耗來看,HBM 的能效顯著佔優,在 AI 資料中心的大規模部署中,這一差異直接轉化為營運成本上可量化的優勢。
功耗與延遲:由於 TSV 的垂直路徑極短,HBM 的能耗較 GDDR5 降低約 30%。在延遲層面,GDDR 依賴 PCB 走線與 GPU 溝通,延遲通常在微秒等級;HBM 則將記憶體直接封裝於 GPU 晶片附近,延遲壓縮至奈秒等級。值得注意的是,HBM 在極致吞吐量場景下,隨機存取延遲略高於 GDDR,但對大規模並行串流存取(即 AI 訓練與推論的典型模式)而言,吞吐量才是關鍵瓶頸。
成本:這是 HBM 最明顯的劣勢。據業界數據,HBM 的單 GB 成本超過 25 美元,而 GDDR6 僅約 5-8 美元。HBM 在高階 GPU 總成本中的占比高達 60%-80%。GDDR6 的單位成本頻寬表現其實優於 HBM——當應用場景對頻寬的絕對峰值要求不高時,GDDR6 方案在性價比層面具備明顯優勢。
綜合來看,HBM 與 GDDR 的選型本質上是效能邊界與成本限制的權衡。HBM 服務於「必須達到某個頻寬門檻才能運作」的場景——例如數千億參數的大模型推論,低於某一頻寬水平,系統將無法有效運作。GDDR6 則服務於「在可接受效能下追求最低成本」的場景,典型如 7B-13B 參數規模的中小型模型部署。
兩者並非替代關係,而是面向不同需求層級的並行技術路線。但在 AI 訓練與大規模推論場景中,HBM 的優勢正逐步將 GDDR 排擠出核心賽道。
「記憶體牆」困境:為何 AI 模型越大,HBM 需求越呈指數級增長
理解 HBM 需求爆發式增長的邏輯,需要回到 AI 運算範式的一個核心瓶頸——「記憶體牆」(Memory Wall)。
算力增速與頻寬增速的剪刀差
過去三十年,處理器算力的成長遵循摩爾定律,每 18-24 個月翻倍;而記憶體頻寬的提升速度卻慢得多。根據針對 AI 與記憶體牆的研究,AI 模型算力每兩年成長約 3 倍,但記憶體頻寬僅提升約 1.6 倍,互連網路頻寬的增幅更低。這代表每一次算力升級,記憶體搬運能力都相對「貶值」。
這個矛盾在推論階段尤其明顯。訓練階段以矩陣乘法(GEMM)為主,計算密度高,算術強度可達 100+ FLOPs/byte;而推論階段以矩陣向量乘法(GEMV)為核心,算術強度往往低於 2 FLOPs/byte。算術強度越低,系統的效能上限就越依賴記憶體頻寬而非運算能力——這正是「頻寬牆」效應的來源。
大模型推論的「搬運負擔」
大模型推論的基本流程可概括為:每生成一個 token,都需將整個模型的所有參數從記憶體載入至運算核心。以 Llama 3 70B 模型為例,在 FP16 精度下,模型權重約 140GB。每生成一個 token,這 140GB 參數就要完整搬運一次。若要確保每秒產生 30 個 token 的流暢體驗,HBM 到運算核心間的頻寬必須支撐約每秒 4.2TB 的搬運量。
這一需求已經逼近甚至超越目前主流硬體的極限。NVIDIA H100 SXM5 的 HBM 頻寬為 3.35TB/s。換言之,即使是最頂級的 AI 加速卡,面對 70B 參數模型時,其記憶體頻寬也已進入「勉強夠用」的狀態。隨著模型參數規模向數百億、數千億乃至兆級邁進,所需頻寬將以線性甚至超線性的方式增長。
容量與頻寬的雙重緊約束
記憶體容量是另一個關鍵層面。如果一個模型的總參數量超過單張 GPU 的 HBM 容量,就必須將模型切分到多張 GPU 上並行運算——這種方式稱為張量並行。但切分會帶來通訊開銷的新瓶頸:GPU 之間需頻繁傳遞中間結果,最終反而可能進一步拖累整體效率。
因此,HBM 的價值體現在兩個層面:頻寬決定單卡推論的出詞速度與延遲下限;容量則決定模型能否裝入單卡、需要多少張卡以及跨卡通訊的成本有多高。
目前的產業路徑已相當明確:HBM 正從「高階選配」升級為 AI 算力的「標準配置」。根據 TrendForce 數據,2025 年 HBM 需求量年增超過 130%,2026 年將在高基數上持續成長 70% 以上。HBM 從圖形處理領域的配角,躍升為 AI 算力鏈條中不可或缺的核心組件。
全產業鏈傳導:從技術選型到兆級市場供需失衡
市場規模躍升
HBM 市場的擴張速度超出多數機構的早期預期。根據 SEMI 中國數據,2026 年 HBM 市場規模預計成長 58% 至 546 億美元,佔整體 DRAM 市場近四成。美光預估 HBM 的潛在市場規模(TAM)複合年成長率約 40%,將從 2025 年的約 350 億美元增長至 2028 年的 1000 億美元——這一數字已超過 2024 年整體 DRAM 市場的規模。
供應端的剛性限制
但需求端的爆發式成長與供給端的剛性產能形成尖銳矛盾。根據 SEMI 數據,儘管三星、SK 海力士、美光三大原廠已將 70% 的新增/可調配產能轉向 HBM 生產,HBM 的整體產能缺口仍高達 50%-60%。
產能瓶頸的根源在於 HBM 製造的高門檻。HBM 生產不僅需先進的 DRAM 製程技術(目前領先廠商已推進至 1β nm 節點),更需要 TSV 蝕刻、微凸塊鍵合、晶圓級封裝等一系列先進封裝技術的協同。其中,作為 HBM 與 GPU 整合核心平台的台積電 CoWoS 封裝產能,雖然 2026 年底預計將擴增至每月 12.5 萬片以上,年成長約 79%,但仍無法完全滿足 NVIDIA、AMD、博通等客戶的訂單需求。
供應鏈風險與價格傳導
產能缺口直接反映在價格端。HBM3E 單價於 2025 年間上漲了 5%-10%。更值得關注的是,三大原廠將產能大舉轉向 HBM 後,消費級 DDR 記憶體供給顯著收縮,預計價格將持續上漲至 2026 年底。HBM 的供應短缺正透過產能排擠的方式,影響更廣泛的記憶體產業鏈。
黃仁勳於 2026 年 6 月確認,SK 海力士、三星與美光均已通過認證並開始大規模供應 HBM4 晶片,三星於 2026 年 2 月在業界率先啟動 HBM4 量產出貨。但即使三巨頭同步擴產,2025-2026 年 HBM 的供需缺口仍在 50% 水準。HBM 的供需平衡短期內仍難以達成。上游擴產節奏、封裝產能瓶頸與下游 AI 算力需求的高速成長,構成一個動態但持續緊繃的供需格局。
結語
從技術原理的底層創新,到 AI 算力場景的剛性依賴,再到全產業鏈的供需失衡,HBM 已從記憶體技術演進中的一個分支,演變為 AI 基礎設施競爭的核心戰場。
HBM 在 AI 訓練與推論中的不可取代性,來自一個非常基本的運算邏輯:當模型參數規模突破某個門檻後,頻寬就不再是一個「最佳化項」,而是一個「使能項」——低於門檻,系統無法有效運作。GDDR6 雖在成本面具備優勢,但其窄通道、高頻的架構在頻寬上限與能效水準上,難以匹配兆級參數模型的運算密度。這種結構性差異,決定了在 AI 算力的核心賽道上,HBM 與 GDDR 並非單純的競爭關係,而是面向不同層級需求的分層方案。
展望未來,HBM4 的量產推進(單堆疊頻寬預計提升至 2TB/s 以上)、16 層堆疊技術的成熟,以及混合鍵合等新一代封裝工藝的導入,將進一步提升 HBM 的效能上限。但值得關注的是,華為等廠商已開始探索減少對 HBM 依賴的演算法優化路徑,SRAM 與存算一體架構等替代方向也在同步推進。HBM 能否在技術迭代中持續保持領先,以及其供給瓶頸能否在擴產週期中獲得有效緩解,將是未來數年 AI 算力產業鏈最重要的觀察指標之一。




