HBM vs GDDR：高带宽内存如何突破 AI 训练与推理中的“内存墙”瓶颈

在大模型参数突破万亿级的 AI 竞赛中，GPU 算力固然是焦点，但一个更隐蔽却决定上限的组件正成为行业争夺的制高点——高带宽内存（High Bandwidth Memory, HBM）。如果把 GPU 比作一台拥有上万气缸的超高性能引擎，那么 HBM 就是为其持续供给数据的燃料系统。供油一旦跟不上，再强大的引擎也只能空转。

业内普遍意识到，AI 算力瓶颈已不再局限于计算单元本身，而是更多地卡在数据搬运效率上。数据显示，传统计算架构中，数据搬运能耗往往占系统总能耗的 60%-80%。在推理场景下，GPU 的算力闲置率甚至可达 99%。这背后一个关键的制约因素，正是内存带宽。

HBM 凭借 3D 堆叠与硅通孔（TSV）技术，在单位面积内实现了远超传统内存的带宽与能效，已成为 NVIDIA、AMD、Google 等巨头 AI 加速器的标配。

技术原理：HBM 如何重构 GPU 与内存的数据通道

从“平面跑车”到“垂直电梯”

HBM 并非一种全新的存储介质，而是一套定义了“如何让 DRAM 以极高带宽互连”的接口与封装技术规范。其核心技术路径可拆解为三个层面：

3D 堆叠——将多层 DRAM 芯片垂直堆叠在一起（当前主流为 8 层至 12 层，HBM4 已推进至 16 层），在相同的物理面积上成倍提升存储密度与并行通道数。

硅通孔（TSV） ——在每层 DRAM 芯片内部蚀刻直径仅 5-10 微米的微孔，填充导电材料形成垂直通道，实现层间万级互联。这与传统 PCB 布线形成鲜明对比：传统方案走线长度以厘米甚至米为单位，而 TSV 的信号传输距离被压缩至微米级，从而大幅降低信号衰减与延迟。

硅中介层（Interposer） ——HBM 堆栈通过微凸块与硅中介层连接，中介层再与 GPU/CPU 芯片在极短距离内互连，形成统一的封装模块。整个结构通过 CoWoS 等 2.5D 先进封装工艺实现高密度集成。

这套架构带来的核心突破在于总线宽度。一个 HBM 堆栈的总线宽度通常为 1024 位，而 HBM3E 更可扩展至 2048 位。以 SK 海力士最新量产的 HBM3E 为例，单颗容量已达 24GB，带宽突破 1TB/s。相比之下，传统 GDDR 方案的位宽仅 32 位（单颗）或 384 位（多颗组合），两者的数据传输能力存在数量级差异。

HBM 的底层设计逻辑是“宽而慢”——通过极大的并行通道数量换取总带宽，每个通道运行在相对较低频率，因而能效显著优于高频方案。而 GDDR 的逻辑是“窄而快”——依靠更高的工作频率从少数通道中压榨带宽。这两种设计哲学适配了完全不同的应用场景：HBM 追求极致吞吐量，GDDR 则在吞吐量与成本之间寻求平衡。

HBM vs GDDR6：一场“宽而慢”与“窄而快”的对决

HBM 与 GDDR6 同属 DRAM 内存家族，核心使命都是为 GPU 提供数据访问通道，但二者在设计目标、性能特性与成本结构上存在本质差异。

带宽：HBM3E 单堆栈带宽可达 1.2TB/s，下一代 HBM4 预计跃升至 2.0TB/s 以上。GDDR6X 的单卡极限带宽约 1TB/s，在头部产品中已趋近物理上限。但从单位带宽的能耗来看，HBM 的能效显著占优，在 AI 数据中心的大规模部署中，这一差异直接转化为运营成本上可量化的优势。

功耗与延迟：由于 TSV 的垂直路径极短，HBM 的能耗比较 GDDR5 降低约 30%。在延迟维度，GDDR 依赖 PCB 走线与 GPU 通信，延迟通常在微秒量级；HBM 将内存直接封装在 GPU 芯片附近，延迟压缩至纳秒级。值得注意的是，HBM 在极致吞吐量场景下，随机访问延迟略高于 GDDR，但对大规模的并行流式访问（即 AI 训练与推理的典型模式）而言，吞吐量才是关键瓶颈。

成本：这是 HBM 最显著的劣势。据行业数据，HBM 的单 GB 成本超过 25 美元，而 GDDR6 仅约 5-8 美元。HBM 在高端 GPU 总成本中的占比高达 60%-80%。GDDR6 的单位成本带宽表现实际上优于 HBM——当应用场景对带宽的绝对峰值要求不高时，GDDR6 方案在性价比维度具备明显优势。

综合来看，HBM 与 GDDR 的选型本质上是一个性能边界与成本约束的权衡问题。HBM 服务于“必须达到某个带宽阈值才能运行”的场景——例如数千亿参数的大模型推理，低于某一带宽水平，系统将无法有效工作。GDDR6 则服务于“在可接受的性能水平下寻求最低成本”的场景，典型如 7B-13B 参数规模的中小模型部署。

两者并非替代关系，而是面向不同需求层级的并行技术路线。但在 AI 训练与大规模推理场景中，HBM 的优势正在将 GDDR 逐步挤出核心赛道。

“内存墙”困局：为何 AI 模型越大，HBM 需求越呈指数级增长

理解 HBM 需求爆发式增长的逻辑，需要回到 AI 计算范式的一个核心瓶颈——“内存墙”（Memory Wall）。

算力增速与带宽增速的剪刀差

过去三十年，处理器算力的增长遵循摩尔定律，每 18-24 个月翻一番；而内存带宽的提升速度却要缓慢得多。根据对 AI 与内存墙的研究，AI 模型算力每两年增长约 3 倍，但内存带宽仅增长约 1.6 倍，互连网络带宽的增幅更低。这意味着每一次算力升级，内存搬运能力都相对“贬值”。

这一矛盾在推理阶段尤为突出。训练阶段以矩阵乘法（GEMM）为主，计算密度高，算术强度可达 100+ FLOPs/byte；而推理阶段以矩阵向量乘法（GEMV）为核心，算术强度往往低于 2 FLOPs/byte。算术强度越低，系统的性能天花板就越依赖内存带宽而非计算能力——这正是“带宽墙”效应的来源。

大模型推理的“搬运负担”

大模型推理的基本流程可概括为：每生成一个 token，都需要将整个模型的全部参数从内存加载到计算核心。以 Llama 3 70B 模型为例，在 FP16 精度下，模型权重约 140GB。每生成一个 token，这 140GB 参数就要完整搬运一次。如果要保证每秒生成 30 个 token 的流畅体验，HBM 到计算核心之间的带宽必须支撑约每秒 4.2TB 的搬运量。

这一需求已经逼近甚至超越了当前主流硬件的极限。NVIDIA H100 SXM5 的 HBM 带宽为 3.35TB/s。换言之，即使是最顶级的 AI 加速卡，在面对 70B 参数模型时，其内存带宽也已进入“勉强够用”的状态。随着模型参数规模向数百亿、数千亿乃至万亿级迈进，所需的带宽将以线性甚至超线性的方式增长。

容量与带宽的双重紧约束

内存容量是另一个关键维度。如果一个模型的总参数量超过单 GPU 的 HBM 容量，就必须将模型切分到多个 GPU 上并行运行——这种方式被称为张量并行。但切分会带来通信开销的新瓶颈：GPU 之间需要频繁传递中间结果，最终反而可能进一步拖累整体效率。

因此，HBM 的价值体现在两个层面：带宽决定了单卡推理的出词速度与延迟下限；容量则决定了模型是否能装入单卡、需要多少张卡以及跨卡通信的成本有多高。

当前的产业路径已经清晰：HBM 正从“高端选配”升级为 AI 算力的“标准配置”。据 TrendForce 数据，2025 年 HBM 需求量同比增长超过 130%，2026 年将在高基数上继续增长 70% 以上。HBM 从图形处理领域的配角，跃升为 AI 算力链条中不可替代的核心组件。

全产业链传导：从技术选型到千亿级市场供需失衡

市场规模跃升

HBM 市场的扩张速度超出了多数机构的早期预测。据 SEMI 中国数据，2026 年 HBM 市场规模预计增长 58% 至 546 亿美元，占整个 DRAM 市场的近四成。美光预计 HBM 的潜在市场规模（TAM）复合年增长率约为 40%，将从 2025 年的约 350 亿美元增长至 2028 年的 1000 亿美元——这一数字已超过 2024 年整个 DRAM 市场的规模。

供应端的刚性约束

但需求端的爆发式增长与供给端的刚性产能形成尖锐矛盾。据 SEMI 数据，尽管三星、SK 海力士、美光三大原厂已将 70% 的新增/可调配产能转向 HBM 生产，HBM 的整体产能缺口仍高达 50%-60%。

产能瓶颈的根源在于 HBM 制造的高壁垒。HBM 生产不仅需要先进的 DRAM 制程工艺（目前头部厂商已推进至 1β nm 节点），更需要 TSV 刻蚀、微凸块键合、晶圆级封装等一系列先进封装技术的协同。其中，作为 HBM 与 GPU 集成核心平台的台积电 CoWoS 封装产能，尽管 2026 年末预计将扩张至每月 12.5 万片以上，同比增长约 79%，但仍无法完全满足来自 NVIDIA、AMD、博通等客户的订单需求。

供应链风险与价格传导

产能缺口直接反映在价格端。HBM3E 单价在 2025 年间上涨了 5%-10%。更值得关注的是，三大原厂将产能大规模转向 HBM 后，消费级 DDR 内存供给显著收缩，预计价格将持续上涨至 2026 年底。HBM 的供应短缺正在通过产能挤出的方式，影响更广泛的内存产业链。

黄仁勋在 2026 年 6 月确认，SK 海力士、三星和美光均已通过认证并开始大规模供应 HBM4 芯片，三星于 2026 年 2 月在业内率先启动 HBM4 量产出货。但即便是三巨头同步扩产，2025-2026 年 HBM 的供需缺口仍在 50% 量级。HBM 的供需平衡短期内仍难以达成。上游扩产节奏、封装产能瓶颈与下游 AI 算力需求的高速扩张，构成了一个动态但持续紧绷的供需格局。

结语

从技术原理的底层创新，到 AI 算力场景的刚性依赖，再到全产业链的供需失衡，HBM 已从内存技术演进中的一个分支，演变为 AI 基础设施竞争的核心赛点。

HBM 在 AI 训练与推理中的不可替代性，源于一个非常基础的计算逻辑：当模型参数规模突破某个阈值之后，带宽就不再是一个“优化项”，而是一个“使能项”——低于门槛，系统无法有效运行。GDDR6 虽在成本维度具备优势，但其窄通道、高频的架构在带宽天花板与能效水平上，难以匹配万亿参数模型的运算密度。这种结构性差异，决定了在 AI 算力的核心赛道上，HBM 与 GDDR 并非简单的竞争关系，而是面向不同层级需求的分层方案。

展望未来，HBM4 的量产推进（单堆栈带宽预计提升至 2TB/s 以上）、16 层堆叠技术的成熟以及混合键合等新一代封装工艺的导入，将进一步提升 HBM 的性能上限。但值得关注的是，华为等厂商已开始探索减少对 HBM 依赖的算法优化路径，SRAM 与存算一体架构等替代方向也在同步推进。HBM 能否在技术迭代中持续保持领先，以及其供给瓶颈能否在扩产周期中得到有效缓解，将是未来数年 AI 算力产业链最重要的观察变量之一。

本内容不构成任何要约、招揽、或建议。您在做出任何投资决定之前应始终寻求独立的专业建议。请注意，Gate 可能会限制或禁止来自受限制地区的所有或部分服务。请阅读用户协议了解更多信息。