HBM vs GDDR：高頻寬記憶體如何突破 AI 訓練與推論中的「記憶體牆」瓶頸

在大模型參數突破兆級的 AI 競賽中，GPU 算力固然是焦點，但有一個更隱晦、卻決定上限的組件，正成為產業爭奪的制高點——高頻寬記憶體（High Bandwidth Memory, HBM）。如果將 GPU 比喻為擁有上萬汽缸的超高性能引擎，那麼 HBM 就是為其持續供應資料的燃料系統。一旦供油跟不上，再強大的引擎也只能空轉。

業界普遍意識到，AI 算力瓶頸已不再侷限於運算單元本身，而是更多卡在資料搬運效率上。數據顯示，在傳統運算架構中，資料搬運的能耗往往佔系統總能耗的 60% 至 80%。在推論場景下，GPU 的算力閒置率甚至可達 99%。這背後的一個關鍵限制因素，正是記憶體頻寬。

HBM 憑藉 3D 堆疊與矽通孔（TSV）技術，在單位面積內實現遠超傳統記憶體的頻寬與能效，已成為 NVIDIA、AMD、Google 等巨頭 AI 加速器的標準配備。

技術原理：HBM 如何重構 GPU 與記憶體的資料通道

從「平面跑車」到「垂直電梯」

HBM 並非一種全新的儲存媒介，而是一套定義「如何讓 DRAM 以極高頻寬互連」的介面與封裝技術規範。其核心技術路徑可拆解為三個層面：

3D 堆疊——將多層 DRAM 晶片垂直堆疊在一起（目前主流為 8 層至 12 層，HBM4 已推進至 16 層），在相同的物理面積上成倍提升儲存密度與並行通道數。

矽通孔（TSV）——在每層 DRAM 晶片內部蝕刻直徑僅 5-10 微米的微孔，填充導電材料形成垂直通道，實現層間萬級互聯。這與傳統 PCB 佈線形成鮮明對比：傳統方案的走線長度以公分甚至公尺計，而 TSV 的訊號傳輸距離被壓縮至微米級，從而大幅降低訊號衰減與延遲。

矽中介層（Interposer）——HBM 堆疊透過微凸塊與矽中介層連接，中介層再與 GPU/CPU 晶片在極短距離內互連，形成統一的封裝模組。整個結構透過 CoWoS 等 2.5D 先進封裝技術實現高密度整合。

這套架構帶來的核心突破在於匯流排寬度。一個 HBM 堆疊的匯流排寬度通常為 1024 位元，而 HBM3E 更可擴展至 2048 位元。以 SK 海力士最新量產的 HBM3E 為例，單顆容量已達 24GB，頻寬突破 1TB/s。相比之下，傳統 GDDR 方案的位元寬僅 32 位元（單顆）或 384 位元（多顆組合），兩者的資料傳輸能力存在數量級差異。

HBM 的底層設計邏輯是「寬而慢」——透過極大量的並行通道換取總頻寬，每個通道運作在相對較低頻率，因此能效明顯優於高頻方案。而 GDDR 的邏輯是「窄而快」——依靠更高的工作頻率，從少數通道中榨取頻寬。這兩種設計哲學適用於完全不同的應用場景：HBM 追求極致吞吐量，GDDR 則在吞吐量與成本之間尋求平衡。

HBM vs GDDR6：一場「寬而慢」與「窄而快」的對決

HBM 與 GDDR6 同屬 DRAM 記憶體家族，核心使命都是為 GPU 提供資料存取通道，但兩者在設計目標、效能特性與成本結構上存在本質差異。

頻寬：HBM3E 單堆疊頻寬可達 1.2TB/s，下一代 HBM4 預計將提升至 2.0TB/s 以上。GDDR6X 的單卡極限頻寬約 1TB/s，在頂級產品中已接近物理極限。但從單位頻寬的能耗來看，HBM 的能效顯著佔優，在 AI 資料中心的大規模部署中，這一差異直接轉化為營運成本上可量化的優勢。

功耗與延遲：由於 TSV 的垂直路徑極短，HBM 的能耗較 GDDR5 降低約 30%。在延遲層面，GDDR 依賴 PCB 走線與 GPU 溝通，延遲通常在微秒等級；HBM 則將記憶體直接封裝於 GPU 晶片附近，延遲壓縮至奈秒等級。值得注意的是，HBM 在極致吞吐量場景下，隨機存取延遲略高於 GDDR，但對大規模並行串流存取（即 AI 訓練與推論的典型模式）而言，吞吐量才是關鍵瓶頸。

成本：這是 HBM 最明顯的劣勢。據業界數據，HBM 的單 GB 成本超過 25 美元，而 GDDR6 僅約 5-8 美元。HBM 在高階 GPU 總成本中的占比高達 60%-80%。GDDR6 的單位成本頻寬表現其實優於 HBM——當應用場景對頻寬的絕對峰值要求不高時，GDDR6 方案在性價比層面具備明顯優勢。

綜合來看，HBM 與 GDDR 的選型本質上是效能邊界與成本限制的權衡。HBM 服務於「必須達到某個頻寬門檻才能運作」的場景——例如數千億參數的大模型推論，低於某一頻寬水平，系統將無法有效運作。GDDR6 則服務於「在可接受效能下追求最低成本」的場景，典型如 7B-13B 參數規模的中小型模型部署。

兩者並非替代關係，而是面向不同需求層級的並行技術路線。但在 AI 訓練與大規模推論場景中，HBM 的優勢正逐步將 GDDR 排擠出核心賽道。

「記憶體牆」困境：為何 AI 模型越大，HBM 需求越呈指數級增長

理解 HBM 需求爆發式增長的邏輯，需要回到 AI 運算範式的一個核心瓶頸——「記憶體牆」（Memory Wall）。

算力增速與頻寬增速的剪刀差

過去三十年，處理器算力的成長遵循摩爾定律，每 18-24 個月翻倍；而記憶體頻寬的提升速度卻慢得多。根據針對 AI 與記憶體牆的研究，AI 模型算力每兩年成長約 3 倍，但記憶體頻寬僅提升約 1.6 倍，互連網路頻寬的增幅更低。這代表每一次算力升級，記憶體搬運能力都相對「貶值」。

這個矛盾在推論階段尤其明顯。訓練階段以矩陣乘法（GEMM）為主，計算密度高，算術強度可達 100+ FLOPs/byte；而推論階段以矩陣向量乘法（GEMV）為核心，算術強度往往低於 2 FLOPs/byte。算術強度越低，系統的效能上限就越依賴記憶體頻寬而非運算能力——這正是「頻寬牆」效應的來源。

大模型推論的「搬運負擔」

大模型推論的基本流程可概括為：每生成一個 token，都需將整個模型的所有參數從記憶體載入至運算核心。以 Llama 3 70B 模型為例，在 FP16 精度下，模型權重約 140GB。每生成一個 token，這 140GB 參數就要完整搬運一次。若要確保每秒產生 30 個 token 的流暢體驗，HBM 到運算核心間的頻寬必須支撐約每秒 4.2TB 的搬運量。

這一需求已經逼近甚至超越目前主流硬體的極限。NVIDIA H100 SXM5 的 HBM 頻寬為 3.35TB/s。換言之，即使是最頂級的 AI 加速卡，面對 70B 參數模型時，其記憶體頻寬也已進入「勉強夠用」的狀態。隨著模型參數規模向數百億、數千億乃至兆級邁進，所需頻寬將以線性甚至超線性的方式增長。

容量與頻寬的雙重緊約束

記憶體容量是另一個關鍵層面。如果一個模型的總參數量超過單張 GPU 的 HBM 容量，就必須將模型切分到多張 GPU 上並行運算——這種方式稱為張量並行。但切分會帶來通訊開銷的新瓶頸：GPU 之間需頻繁傳遞中間結果，最終反而可能進一步拖累整體效率。

因此，HBM 的價值體現在兩個層面：頻寬決定單卡推論的出詞速度與延遲下限；容量則決定模型能否裝入單卡、需要多少張卡以及跨卡通訊的成本有多高。

目前的產業路徑已相當明確：HBM 正從「高階選配」升級為 AI 算力的「標準配置」。根據 TrendForce 數據，2025 年 HBM 需求量年增超過 130%，2026 年將在高基數上持續成長 70% 以上。HBM 從圖形處理領域的配角，躍升為 AI 算力鏈條中不可或缺的核心組件。

全產業鏈傳導：從技術選型到兆級市場供需失衡

市場規模躍升

HBM 市場的擴張速度超出多數機構的早期預期。根據 SEMI 中國數據，2026 年 HBM 市場規模預計成長 58% 至 546 億美元，佔整體 DRAM 市場近四成。美光預估 HBM 的潛在市場規模（TAM）複合年成長率約 40%，將從 2025 年的約 350 億美元增長至 2028 年的 1000 億美元——這一數字已超過 2024 年整體 DRAM 市場的規模。

供應端的剛性限制

但需求端的爆發式成長與供給端的剛性產能形成尖銳矛盾。根據 SEMI 數據，儘管三星、SK 海力士、美光三大原廠已將 70% 的新增／可調配產能轉向 HBM 生產，HBM 的整體產能缺口仍高達 50%-60%。

產能瓶頸的根源在於 HBM 製造的高門檻。HBM 生產不僅需先進的 DRAM 製程技術（目前領先廠商已推進至 1β nm 節點），更需要 TSV 蝕刻、微凸塊鍵合、晶圓級封裝等一系列先進封裝技術的協同。其中，作為 HBM 與 GPU 整合核心平台的台積電 CoWoS 封裝產能，雖然 2026 年底預計將擴增至每月 12.5 萬片以上，年成長約 79%，但仍無法完全滿足 NVIDIA、AMD、博通等客戶的訂單需求。

供應鏈風險與價格傳導

產能缺口直接反映在價格端。HBM3E 單價於 2025 年間上漲了 5%-10%。更值得關注的是，三大原廠將產能大舉轉向 HBM 後，消費級 DDR 記憶體供給顯著收縮，預計價格將持續上漲至 2026 年底。HBM 的供應短缺正透過產能排擠的方式，影響更廣泛的記憶體產業鏈。

黃仁勳於 2026 年 6 月確認，SK 海力士、三星與美光均已通過認證並開始大規模供應 HBM4 晶片，三星於 2026 年 2 月在業界率先啟動 HBM4 量產出貨。但即使三巨頭同步擴產，2025-2026 年 HBM 的供需缺口仍在 50% 水準。HBM 的供需平衡短期內仍難以達成。上游擴產節奏、封裝產能瓶頸與下游 AI 算力需求的高速成長，構成一個動態但持續緊繃的供需格局。

結語

從技術原理的底層創新，到 AI 算力場景的剛性依賴，再到全產業鏈的供需失衡，HBM 已從記憶體技術演進中的一個分支，演變為 AI 基礎設施競爭的核心戰場。

HBM 在 AI 訓練與推論中的不可取代性，來自一個非常基本的運算邏輯：當模型參數規模突破某個門檻後，頻寬就不再是一個「最佳化項」，而是一個「使能項」——低於門檻，系統無法有效運作。GDDR6 雖在成本面具備優勢，但其窄通道、高頻的架構在頻寬上限與能效水準上，難以匹配兆級參數模型的運算密度。這種結構性差異，決定了在 AI 算力的核心賽道上，HBM 與 GDDR 並非單純的競爭關係，而是面向不同層級需求的分層方案。

展望未來，HBM4 的量產推進（單堆疊頻寬預計提升至 2TB/s 以上）、16 層堆疊技術的成熟，以及混合鍵合等新一代封裝工藝的導入，將進一步提升 HBM 的效能上限。但值得關注的是，華為等廠商已開始探索減少對 HBM 依賴的演算法優化路徑，SRAM 與存算一體架構等替代方向也在同步推進。HBM 能否在技術迭代中持續保持領先，以及其供給瓶頸能否在擴產週期中獲得有效緩解，將是未來數年 AI 算力產業鏈最重要的觀察指標之一。