2026-04-26 20:53:12

最近提交IPO的AI芯片新宠Cerebras火遍硅谷。

其芯片在小模型场景下，其推理速度最高可达H100的20倍；而超大规模模型（如400B参数量级），Cerebras CS-3系统的单用户响应速度约为B200的2.4倍
那么Cerebras究竟是如何做到的呢？它是否会成为英伟达杀手呢？
我们需从算力演进的本质开始。
AI算力的演进，正在从“算力本身”转向“通信与系统结构”。在这条演进路径上，Cerebras Systems提供了一种完全不同的答案：不是优化分布式，而是尽可能消灭分布式。
一、两条路线：消灭通信 vs 优化通信
当前AI算力本质上分为两种架构哲学：一条是以NVIDIA为代表的路线：
多芯片（GPU），高速互连（NVLink / CPO），scale-out（横向扩展）
另一条是Cerebras路径：单芯片做到极限（wafer-scale）
片内网络替代跨节点通信，scale-up（纵向放大）
核心区别是：一条在解决“如何连接更多芯片”，另一条在解决“如何不需要连接”。
二、为什么这条路现在才成立
wafer-scale并不是新概念，80年代就有人尝试，90年代商业化失败。原因是：
良率无法承受
没有容错机制
软件无法支撑
行业因此形成共识：小die + 高良率 + 分布式。
Cerebras的突破在于三件事同时成立：
1）容错机制工程化
2）片上网络成熟
3）AI workload匹配（高并行，强同步，通信主导）
本质变化是：从“完美硬件”转向“可容错系统”。
三、性能对比：单点极限 vs 系统扩展
在通信层面，两条路线的优劣非常清晰：
1）片内通信
Cerebras：纯片内 → 延迟最低、能耗最低
CPO：仍有光电转换
→ 单点效率：Cerebras更优
2）系统扩展
Cerebras：一旦跨芯片 → 回到通信问题
CPO：带宽可持续扩展
→ 系统能力：CPO更优
3）功耗结构
Cerebras：单机功耗极高，但通信极省
GPU+CPO：单点功耗可控，系统效率更平衡
结论很明确：
Cerebras赢“单机极限”，
CPO赢“系统规模”。
四、适用场景：谁该用Cerebras
判断标准可以简化为三个问题：
1）通信是否是瓶颈
2）任务是否可集中
3）结构是否规则
因此，高度适用于大模型训练（dense模型），超长上下文，及部分HPC（PDE、流体等）
这些任务的共性是强耦合 + 高同步 + 高带宽
部分适用于大模型推理（低并发），图计算（结构复杂时优势下降）
而不适用于CPU（通用计算），高并发推理，移动/边缘芯片，实时系统
这些系统的共性：不规则 / 高并发 / 低延迟
五、是否会变成主流
尽管Cerebras在特定场景极强，但主流不会走这条路，原因是：
1）物理约束：功耗密度；信号延迟→ 容错解决不了这些问题
2）经济性：小die良率更高；chiplet更灵活
3）产业路径：TSMC等体系优化方向是模块化，多客户复用而不是超大单体
4）需求侧变化：推理占比远高于训练，多任务、高并发成为主流
六、Cerebras的意义
与其说wafer-scale尺寸是重要的趋势，不如说容错设计是会被广泛吸收的哲学
未来可能会出现chiplet级容错，封装级绕路
核心变化是单个硬件不再需要完美，系统负责兜底。
回到最初的问题：Cerebras会不会成为NVIDIA的“杀手”？
答案其实已经很清楚。
它确实在一个关键点上击中了GPU体系的软肋——通信。但行业的选择，并不是非此即彼，而是多个技术突破同时采用：更强的互连、更低的通信能耗、更高的系统级效率。
因此，更准确的判断是Cerebras不是英伟达的杀手，而是英伟达及所有芯片公司可借鉴的最佳实践。
免责声明：本人持有文中提及的标的，观点必然偏颇，非投资建议，投资风险巨大，入场需极度谨慎
（图：一个Cerebras芯片）

查看原文