最近提交IPO的AI芯片新宠Cerebras火遍硅谷。


其芯片在小模型场景下,其推理速度最高可达H100的20倍;而超大规模模型(如400B参数量级),Cerebras CS-3系统的单用户响应速度约为B200的2.4倍
那么Cerebras究竟是如何做到的呢?它是否会成为英伟达杀手呢?
我们需从算力演进的本质开始。
AI算力的演进,正在从“算力本身”转向“通信与系统结构”。在这条演进路径上,Cerebras Systems提供了一种完全不同的答案:不是优化分布式,而是尽可能消灭分布式。
一、两条路线:消灭通信 vs 优化通信
当前AI算力本质上分为两种架构哲学:一条是以NVIDIA为代表的路线:
多芯片(GPU),高速互连(NVLink / CPO),scale-out(横向扩展)
另一条是Cerebras路径:单芯片做到极限(wafer-scale)
片内网络替代跨节点通信,scale-up(纵向放大)
核心区别是:一条在解决“如何连接更多芯片”,另一条在解决“如何不需要连接”。
二、为什么这条路现在才成立
wafer-scale并不是新概念,80年代就有人尝试,90年代商业化失败。原因是:
良率无法承受
没有容错机制
软件无法支撑
行业因此形成共识:小die + 高良率 + 分布式。
Cerebras的突破在于三件事同时成立:
1)容错机制工程化
2)片上网络成熟
3)AI workload匹配(高并行,强同步,通信主导)
本质变化是:从“完美硬件”转向“可容错系统”。
三、性能对比:单点极限 vs 系统扩展
在通信层面,两条路线的优劣非常清晰:
1)片内通信
Cerebras:纯片内 → 延迟最低、能耗最低
CPO:仍有光电转换
→ 单点效率:Cerebras更优
2)系统扩展
Cerebras:一旦跨芯片 → 回到通信问题
CPO:带宽可持续扩展
→ 系统能力:CPO更优
3)功耗结构
Cerebras:单机功耗极高,但通信极省
GPU+CPO:单点功耗可控,系统效率更平衡
结论很明确:
Cerebras赢“单机极限”,
CPO赢“系统规模”。
四、适用场景:谁该用Cerebras
判断标准可以简化为三个问题:
1)通信是否是瓶颈
2)任务是否可集中
3)结构是否规则
因此,高度适用于大模型训练(dense模型),超长上下文,及部分HPC(PDE、流体等)
这些任务的共性是强耦合 + 高同步 + 高带宽
部分适用于大模型推理(低并发),图计算(结构复杂时优势下降)
而不适用于CPU(通用计算),高并发推理,移动/边缘芯片,实时系统
这些系统的共性:不规则 / 高并发 / 低延迟
五、是否会变成主流
尽管Cerebras在特定场景极强,但主流不会走这条路,原因是:
1)物理约束:功耗密度;信号延迟→ 容错解决不了这些问题
2)经济性:小die良率更高;chiplet更灵活
3)产业路径:TSMC等体系优化方向是模块化,多客户复用而不是超大单体
4)需求侧变化:推理占比远高于训练,多任务、高并发成为主流
六、Cerebras的意义
与其说wafer-scale尺寸是重要的趋势,不如说容错设计是会被广泛吸收的哲学
未来可能会出现chiplet级容错,封装级绕路
核心变化是单个硬件不再需要完美,系统负责兜底。
回到最初的问题:Cerebras会不会成为NVIDIA的“杀手”?
答案其实已经很清楚。
它确实在一个关键点上击中了GPU体系的软肋——通信。但行业的选择,并不是非此即彼,而是多个技术突破同时采用:更强的互连、更低的通信能耗、更高的系统级效率。
因此,更准确的判断是Cerebras不是英伟达的杀手,而是英伟达及所有芯片公司可借鉴的最佳实践。
免责声明:本人持有文中提及的标的,观点必然偏颇,非投资建议,投资风险巨大,入场需极度谨慎
(图:一个Cerebras芯片)
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言