HBM vs GDDR:高带宽内存如何突破 AI 训练与推理中的“内存墙”瓶颈

市场洞察
更新于: 2026-06-10 05:33

在大模型参数突破万亿级的 AI 竞赛中,GPU 算力固然是焦点,但一个更隐蔽却决定上限的组件正成为行业争夺的制高点——高带宽内存(High Bandwidth Memory, HBM)。如果把 GPU 比作一台拥有上万气缸的超高性能引擎,那么 HBM 就是为其持续供给数据的燃料系统。供油一旦跟不上,再强大的引擎也只能空转。

业内普遍意识到,AI 算力瓶颈已不再局限于计算单元本身,而是更多地卡在数据搬运效率上。数据显示,传统计算架构中,数据搬运能耗往往占系统总能耗的 60%-80%。在推理场景下,GPU 的算力闲置率甚至可达 99%。这背后一个关键的制约因素,正是内存带宽。

HBM 凭借 3D 堆叠与硅通孔(TSV)技术,在单位面积内实现了远超传统内存的带宽与能效,已成为 NVIDIA、AMD、Google 等巨头 AI 加速器的标配。

技术原理:HBM 如何重构 GPU 与内存的数据通道

从“平面跑车”到“垂直电梯”

HBM 并非一种全新的存储介质,而是一套定义了“如何让 DRAM 以极高带宽互连”的接口与封装技术规范。其核心技术路径可拆解为三个层面:

3D 堆叠——将多层 DRAM 芯片垂直堆叠在一起(当前主流为 8 层至 12 层,HBM4 已推进至 16 层),在相同的物理面积上成倍提升存储密度与并行通道数。

硅通孔(TSV) ——在每层 DRAM 芯片内部蚀刻直径仅 5-10 微米的微孔,填充导电材料形成垂直通道,实现层间万级互联。这与传统 PCB 布线形成鲜明对比:传统方案走线长度以厘米甚至米为单位,而 TSV 的信号传输距离被压缩至微米级,从而大幅降低信号衰减与延迟。

硅中介层(Interposer) ——HBM 堆栈通过微凸块与硅中介层连接,中介层再与 GPU/CPU 芯片在极短距离内互连,形成统一的封装模块。整个结构通过 CoWoS 等 2.5D 先进封装工艺实现高密度集成。

这套架构带来的核心突破在于总线宽度。一个 HBM 堆栈的总线宽度通常为 1024 位,而 HBM3E 更可扩展至 2048 位。以 SK 海力士最新量产的 HBM3E 为例,单颗容量已达 24GB,带宽突破 1TB/s。相比之下,传统 GDDR 方案的位宽仅 32 位(单颗)或 384 位(多颗组合),两者的数据传输能力存在数量级差异。

HBM 的底层设计逻辑是“宽而慢”——通过极大的并行通道数量换取总带宽,每个通道运行在相对较低频率,因而能效显著优于高频方案。而 GDDR 的逻辑是“窄而快”——依靠更高的工作频率从少数通道中压榨带宽。这两种设计哲学适配了完全不同的应用场景:HBM 追求极致吞吐量,GDDR 则在吞吐量与成本之间寻求平衡。

HBM vs GDDR6:一场“宽而慢”与“窄而快”的对决

HBM 与 GDDR6 同属 DRAM 内存家族,核心使命都是为 GPU 提供数据访问通道,但二者在设计目标、性能特性与成本结构上存在本质差异。

带宽:HBM3E 单堆栈带宽可达 1.2TB/s,下一代 HBM4 预计跃升至 2.0TB/s 以上。GDDR6X 的单卡极限带宽约 1TB/s,在头部产品中已趋近物理上限。但从单位带宽的能耗来看,HBM 的能效显著占优,在 AI 数据中心的大规模部署中,这一差异直接转化为运营成本上可量化的优势。

功耗与延迟:由于 TSV 的垂直路径极短,HBM 的能耗比较 GDDR5 降低约 30%。在延迟维度,GDDR 依赖 PCB 走线与 GPU 通信,延迟通常在微秒量级;HBM 将内存直接封装在 GPU 芯片附近,延迟压缩至纳秒级。值得注意的是,HBM 在极致吞吐量场景下,随机访问延迟略高于 GDDR,但对大规模的并行流式访问(即 AI 训练与推理的典型模式)而言,吞吐量才是关键瓶颈。

成本:这是 HBM 最显著的劣势。据行业数据,HBM 的单 GB 成本超过 25 美元,而 GDDR6 仅约 5-8 美元。HBM 在高端 GPU 总成本中的占比高达 60%-80%。GDDR6 的单位成本带宽表现实际上优于 HBM——当应用场景对带宽的绝对峰值要求不高时,GDDR6 方案在性价比维度具备明显优势。

综合来看,HBM 与 GDDR 的选型本质上是一个性能边界与成本约束的权衡问题。HBM 服务于“必须达到某个带宽阈值才能运行”的场景——例如数千亿参数的大模型推理,低于某一带宽水平,系统将无法有效工作。GDDR6 则服务于“在可接受的性能水平下寻求最低成本”的场景,典型如 7B-13B 参数规模的中小模型部署。

两者并非替代关系,而是面向不同需求层级的并行技术路线。但在 AI 训练与大规模推理场景中,HBM 的优势正在将 GDDR 逐步挤出核心赛道。

“内存墙”困局:为何 AI 模型越大,HBM 需求越呈指数级增长

理解 HBM 需求爆发式增长的逻辑,需要回到 AI 计算范式的一个核心瓶颈——“内存墙”(Memory Wall)。

算力增速与带宽增速的剪刀差

过去三十年,处理器算力的增长遵循摩尔定律,每 18-24 个月翻一番;而内存带宽的提升速度却要缓慢得多。根据对 AI 与内存墙的研究,AI 模型算力每两年增长约 3 倍,但内存带宽仅增长约 1.6 倍,互连网络带宽的增幅更低。这意味着每一次算力升级,内存搬运能力都相对“贬值”。

这一矛盾在推理阶段尤为突出。训练阶段以矩阵乘法(GEMM)为主,计算密度高,算术强度可达 100+ FLOPs/byte;而推理阶段以矩阵向量乘法(GEMV)为核心,算术强度往往低于 2 FLOPs/byte。算术强度越低,系统的性能天花板就越依赖内存带宽而非计算能力——这正是“带宽墙”效应的来源。

大模型推理的“搬运负担”

大模型推理的基本流程可概括为:每生成一个 token,都需要将整个模型的全部参数从内存加载到计算核心。以 Llama 3 70B 模型为例,在 FP16 精度下,模型权重约 140GB。每生成一个 token,这 140GB 参数就要完整搬运一次。如果要保证每秒生成 30 个 token 的流畅体验,HBM 到计算核心之间的带宽必须支撑约每秒 4.2TB 的搬运量。

这一需求已经逼近甚至超越了当前主流硬件的极限。NVIDIA H100 SXM5 的 HBM 带宽为 3.35TB/s。换言之,即使是最顶级的 AI 加速卡,在面对 70B 参数模型时,其内存带宽也已进入“勉强够用”的状态。随着模型参数规模向数百亿、数千亿乃至万亿级迈进,所需的带宽将以线性甚至超线性的方式增长。

容量与带宽的双重紧约束

内存容量是另一个关键维度。如果一个模型的总参数量超过单 GPU 的 HBM 容量,就必须将模型切分到多个 GPU 上并行运行——这种方式被称为张量并行。但切分会带来通信开销的新瓶颈:GPU 之间需要频繁传递中间结果,最终反而可能进一步拖累整体效率。

因此,HBM 的价值体现在两个层面:带宽决定了单卡推理的出词速度与延迟下限;容量则决定了模型是否能装入单卡、需要多少张卡以及跨卡通信的成本有多高。

当前的产业路径已经清晰:HBM 正从“高端选配”升级为 AI 算力的“标准配置”。据 TrendForce 数据,2025 年 HBM 需求量同比增长超过 130%,2026 年将在高基数上继续增长 70% 以上。HBM 从图形处理领域的配角,跃升为 AI 算力链条中不可替代的核心组件。

全产业链传导:从技术选型到千亿级市场供需失衡

市场规模跃升

HBM 市场的扩张速度超出了多数机构的早期预测。据 SEMI 中国数据,2026 年 HBM 市场规模预计增长 58% 至 546 亿美元,占整个 DRAM 市场的近四成。美光预计 HBM 的潜在市场规模(TAM)复合年增长率约为 40%,将从 2025 年的约 350 亿美元增长至 2028 年的 1000 亿美元——这一数字已超过 2024 年整个 DRAM 市场的规模。

供应端的刚性约束

但需求端的爆发式增长与供给端的刚性产能形成尖锐矛盾。据 SEMI 数据,尽管三星、SK 海力士、美光三大原厂已将 70% 的新增/可调配产能转向 HBM 生产,HBM 的整体产能缺口仍高达 50%-60%。

产能瓶颈的根源在于 HBM 制造的高壁垒。HBM 生产不仅需要先进的 DRAM 制程工艺(目前头部厂商已推进至 1β nm 节点),更需要 TSV 刻蚀、微凸块键合、晶圆级封装等一系列先进封装技术的协同。其中,作为 HBM 与 GPU 集成核心平台的台积电 CoWoS 封装产能,尽管 2026 年末预计将扩张至每月 12.5 万片以上,同比增长约 79%,但仍无法完全满足来自 NVIDIA、AMD、博通等客户的订单需求。

供应链风险与价格传导

产能缺口直接反映在价格端。HBM3E 单价在 2025 年间上涨了 5%-10%。更值得关注的是,三大原厂将产能大规模转向 HBM 后,消费级 DDR 内存供给显著收缩,预计价格将持续上涨至 2026 年底。HBM 的供应短缺正在通过产能挤出的方式,影响更广泛的内存产业链。

黄仁勋在 2026 年 6 月确认,SK 海力士、三星和美光均已通过认证并开始大规模供应 HBM4 芯片,三星于 2026 年 2 月在业内率先启动 HBM4 量产出货。但即便是三巨头同步扩产,2025-2026 年 HBM 的供需缺口仍在 50% 量级。HBM 的供需平衡短期内仍难以达成。上游扩产节奏、封装产能瓶颈与下游 AI 算力需求的高速扩张,构成了一个动态但持续紧绷的供需格局。

结语

从技术原理的底层创新,到 AI 算力场景的刚性依赖,再到全产业链的供需失衡,HBM 已从内存技术演进中的一个分支,演变为 AI 基础设施竞争的核心赛点。

HBM 在 AI 训练与推理中的不可替代性,源于一个非常基础的计算逻辑:当模型参数规模突破某个阈值之后,带宽就不再是一个“优化项”,而是一个“使能项”——低于门槛,系统无法有效运行。GDDR6 虽在成本维度具备优势,但其窄通道、高频的架构在带宽天花板与能效水平上,难以匹配万亿参数模型的运算密度。这种结构性差异,决定了在 AI 算力的核心赛道上,HBM 与 GDDR 并非简单的竞争关系,而是面向不同层级需求的分层方案。

展望未来,HBM4 的量产推进(单堆栈带宽预计提升至 2TB/s 以上)、16 层堆叠技术的成熟以及混合键合等新一代封装工艺的导入,将进一步提升 HBM 的性能上限。但值得关注的是,华为等厂商已开始探索减少对 HBM 依赖的算法优化路径,SRAM 与存算一体架构等替代方向也在同步推进。HBM 能否在技术迭代中持续保持领先,以及其供给瓶颈能否在扩产周期中得到有效缓解,将是未来数年 AI 算力产业链最重要的观察变量之一。

本内容不构成任何要约、招揽、或建议。您在做出任何投资决定之前应始终寻求独立的专业建议。请注意,Gate 可能会限制或禁止来自受限制地区的所有或部分服务。请阅读 用户协议了解更多信息。
点赞文章