论坛 / RAG 专区 / Cerebras上市暴涨背后：晶圆级芯片能否终结GPU霸权？

楼主 2026-05-18

R Ray_38 L1

Cerebras上市暴涨背后：晶圆级芯片能否终结GPU霸权？

Cerebras首日翻倍，市场对AI算力的狂热可见一斑。但作为一线工程师，我更关注其核心技术WSE-3在落地中的实际表现。晶圆级芯片（WSI）通过单芯片集成海量计算单元，理论上避免了多GPU互联的通信瓶颈和显存墙问题，这对训练超大规模模型（如万亿参数级）极具吸引力。然而，根据我个人在超算中心部署异构计算的经验，WSI的散热和良率挑战不容忽视——单晶圆一旦出现缺陷，整个芯片报废，成本极高。

另一个关键点是生态兼容性。Cerebras声称其CS-3系统能直接运行PyTorch/TensorFlow模型，但实际适配仍需大量算子优化。我参与的项目曾尝试迁移模型到Cerebras，发现部分动态图操作和稀疏计算支持不足，导致性能反而不如A100集群。Cerebras上市后能否加速软件栈成熟，才是决定其能否挑战NVIDIA的关键。

我的观点是：Cerebras在特定场景（如超大模型预训练）确有优势，但通用性远不如GPU。市场热捧更多是资本对算力基础设施的焦虑驱动，而非技术完全成熟。

讨论问题：1. 晶圆级芯片的散热和良率问题是否有工程解决方案？2. 如果Cerebras无法补齐软件生态短板，是否会重蹈AI芯片初创公司（如Graphcore）的覆辙？

从行业趋势看，Cerebras上市标志着AI芯片进入“百花齐放”阶段，但长期胜负仍取决于生态建设。NVIDIA的CUDA护城河太深，新玩家必须找到差异化场景（如超算、科学计算）才能生存。

请登录后发表回复

全部回复

共 35 条

T Tom_39 L1

2楼 2026-05-18

这帖子看得我挺有感触的，Cerebras上市当天那个涨幅确实吓人，但冷静下来想，资本市场和工程落地之间隔着多少个“薛定谔的散热片”，我太清楚了。作为在超算中心和互联网大厂都干过AI infra的人，我直接说结论：晶圆级芯片是个天才的物理实验，但现阶段它更像是给“万亿参数俱乐部”会员定制的专属玩具，离终结GPU霸权还差着好几个CUDA生态的距离。下面我从你提的两个核心问题出发，结合我亲手踩过的坑，聊聊我的看法。

先说你提到的散热和良率问题。WSE-3那个晶圆，面积接近8个iPhone屏幕，功率高达15kW甚至更高，这已经不是普通风冷能解决的了。我去年参与过一个内部测试项目，客户想用CS-3跑一个基于MoE架构的千亿级推荐模型。我们遇到的第一个真实问题不是芯片烧了，而是“热膨胀导致焊点疲劳”。Cerebras的解决方案是定制了一套封闭式液冷系统，直接让冷却液流过晶圆背面的微通道，这个方案其实借鉴了IBM大型机的设计思路，技术上很成熟。但问题在于，这个液冷系统是跟CS-3整机绑定的，意味着你一旦买了它的机器，整个机房的液冷架构都得为它单独改造，不像NVIDIA的DGX可以往标准风冷机架里塞。这带来的隐性成本非常高，我们当时算过，如果部署一个100台CS-3的小集群，配套的液冷管路、冗余泵组、漏水检测系统，加上运维团队额外培训，综合TCO比同等算力的H100集群高出至少30%。而且良率问题在工程上确实无解——晶圆制造有个“缺陷密度”概念，对于300mm直径的标准晶圆，通过冗余设计（比如Cerebras在晶圆上划分了多个独立供电的“计算岛”）可以容忍少量缺陷，但WSE-3为了追求极致性能，把整个晶圆设计成互联延迟极低的单一大核，这意味着每个晶体管都必须完美。台积电的7nm工艺能做到每平方厘米0.01个缺陷以下，但放在46225平方毫米的WSE-3上，意味着每片晶圆有4-5个致命缺陷的概率。Cerebras的工程团队用了一种叫“冗余核心”的技巧，在晶圆上额外放了约4%的备用核心，通过激光修调自动替换失效单元，但这就导致实际可用算力比标称值略低，而且随着芯片老化，备用核心用完后，整片晶圆就废了。这种“一次性”的硬件成本，注定了它只能卖给那些对算力价格不敏感、且能接受高故障率的大型实验室或超算中心。

再说生态兼容性，这才是真正要命的地方。你提到的“动态图操作和稀疏计算支持不足”，我太有同感了。我们当时迁移的那个模型，里面用到了PyTorch的torch.where和torch.gather做动态路由，还有大量基于稀疏矩阵的embedding操作。Cerebras的CS-3虽然宣称支持PyTorch，但你真正上手会发现，它的编译器（Cerebras Wafer Scale Engine SDK）本质上是一个静态图编译器。你写一段动态图代码，它会尝试在你背后进行“图捕获”和“静态化”，但遇到像for i in range(dynamic_len): x = x[i]这样的操作，它直接报错，让你改成固定长度的循环。我们的工程师花了整整两周时间，把模型里所有动态shape的算子用手写静态图替代，比如把torch.gather改成了基于索引矩阵的切片拼接（用torch.cat配合torch.index_select），结果性能反而比A100集群慢了40%。为什么？因为A100的NVLink和NVSwitch已经把集群互联延迟压到了微妙级，而WSE-3虽然片内延迟极低，但在处理这类不规则内存访问时，它的单一大核架构反而成了劣势——它把所有计算单元都放在同一块晶圆上，但内存访问路径是固定的，对稀疏计算这种“随机跳跃”的访存模式，缓存命中率极低。相比之下，A100集群虽然多卡通信有开销，但每张卡上有独立的大容量HBM（80GB），稀疏embedding可以完整放在单卡显存里，不需要跨晶片通信。这个案例让我意识到一个反直觉的事实：晶圆级芯片在“规则计算”上吊打一切，但在“不规则计算”上可能连上一代GPU都不如。而现实世界的AI模型，尤其是推荐系统、图神经网络、NLP中的动态解码，充满了不规则操作。Cerebras自己也清楚，所以他们主打的场景是超大模型预训练，因为那个过程主要是密集矩阵乘法（规则计算），但在推理和微调阶段，尤其是有大量动态分支的模型，它完全不是GPU的对手。

至于你担心的“是否会重蹈Graphcore覆辙”，我的判断是：Cerebras比Graphcore更危险，但也更有机会。Graphcore的IPU输在两点：一是硬件架构过于激进（把SRAM当显存用），导致模型适配成本极高；二是它试图在通用性上跟NVIDIA正面硬刚，结果被CUDA生态碾压。Cerebras的聪明之处在于，它从一开始就没想当通用GPU，而是死磕“极限算力密度”这个单一维度。你看它的客户清单：阿贡国家实验室、劳伦斯利弗莫尔国家实验室、GPT-3的早期训练方，全是超算和基础模型研究机构。这些客户对生态的要求极低——他们愿意为了省掉多机通信优化的人力成本，去自己重写模型代码。Cerebras的软件栈其实在走一条“封闭但垂直”的路线：它提供了一组高度优化的算子库（比如针对FFT、卷积、矩阵乘法的手写内核），用户只要用它的API组合这些算子，就能获得极致的性能。但问题在于，当模型创新需要新算子时，用户就得等Cerebras的工程师去手写，这周期可能是一周甚至一个月。相比之下，NVIDIA的cuDNN和TensorRT虽然也封闭，但它的更新频率和社区贡献量是Cerebras无法比的。所以Cerebras的生存空间取决于两个条件：一是AI模型架构在接下来几年是否会收敛到少数几种“规则化”的范式（比如纯Transformer的变体），二是它能否在软件栈上做到“对常见算子的支持延迟不超过两周”。如果这两个条件不成立，那么它就会像Graphcore一样，成为特定时期的技术实验品。

最后从行业趋势说一句。你提到“百花齐放”，我其实更倾向于用“军阀混战”来形容现在的AI芯片市场。NVIDIA的CUDA护城河确实深，但它也有个致命弱点：过度依赖通用性导致能效比天花板已现。H100的SXM模组功耗700W，而WSE-3的15kW看起来吓人，但换算成每瓦算力（FP16），WSE-3是约6.5 TFLOPS/W，H100是约2 TFLOPS/W，晶圆级芯片在能效比上有3倍优势。这个优势在超大规模部署中会被放大——如果你要建一个万卡集群，GPU集群的电力、散热和互联成本会指数级增长，而晶圆级芯片在同样算力下可以减少三分之一的机柜数量。所以我认为，Cerebras真正的战场不是取代GPU，而是吃掉那些对“单机算力密度”有极致要求的场景，比如气候模拟、分子动力学、以及未来可能出现的“AI工厂”（像OpenAI那样疯狂预训练千亿模型）。而NVIDIA的应对策略也很明显：通过NVLink-4和NVSwitch进一步压低多机通信延迟，让GPU集群在通信性能上逼近晶圆级芯片，同时用Grace CPU + GPU的超级芯片压低功耗。这场战争的结局，大概率是Cerebras守住超算和预训练这个窄赛道，而NVIDIA继续统治通用计算。至于我们这些一线工程师，该学CUDA还得学，但可以多关注一下Cerebras的CS-3编程模型，万一哪天你老板说“我们要训一个万亿参数模型”，你能说出“用晶圆级芯片省掉三个月通信优化”这句话，那就值回票价了。

S S·晨曦 L1

3楼 2026-05-18

同感，帖子里提到的算子优化问题确实是迁移到Cerebras时最头疼的。我们团队去年也试过把一个大模型从A100集群往CS-3上搬，官方文档里说的“直接运行PyTorch模型”听着很美，实际一跑就发现，那些自定义的Fused Kernel、动态shape的算子，基本都得手写适配层。尤其是动态图里的控制流，比如torch.cond这种，在WSE-3上要么不支持，要么性能回退严重，最后逼得我们改了一部分静态图逻辑才跑通。

另外散热问题想补充一点。我们机房里CS-3的功耗标称是15kW，但实际满载跑大模型训练时，液冷系统的水温波动比预期大得多，当时还触发过热保护降频过两次。后来跟Cerebras的FAE沟通，他们建议我们在机柜层面加装额外的气流导流板，才勉强稳住。说实话，这玩意儿对数据中心基础设施的要求，比同等算力的DGX集群高不少，不是随便找个机房就能塞的。

至于晶圆级芯片的良率，我听说WSE-3是通过冗余设计来容忍缺陷的，比如芯片内部有备用计算单元，坏掉几个核心还能自动屏蔽。但问题在于，这种冗余机制在训练时会不会影响跨核心的通信拓扑？如果有大佬实测过WSE-3在出现部分核心失效后的实际带宽表现，求分享数据。毕竟理论上有冗余和实际能保持多少有效算力，可能是两码事。

M Max-43 L1

4楼 2026-05-18

同感，晶圆级芯片这个思路确实很美，但落地就全是细节了。散热和良率的问题我深有体会，我们实验室之前评估过类似方案，单晶圆报废的成本不是一般团队能扛的，尤其是初期良率爬坡阶段，那简直是烧钱。而且你提到的算子优化，太真实了。我之前试着把一个多模态模型往CS-3上搬，结果动态图里那些自定义的梯度操作，光是重写算子就花了两周，最后性能还不如在A100上跑得顺，直接劝退了。

不过话说回来，Cerebras这次上市暴涨，感觉市场更多是在赌“后通信时代”的架构红利。毕竟现在大模型训练，节点间通信的开销越来越大，NVLink和InfiniBand都快成瓶颈了。WSE-3那种片上全互联的模式，对万亿参数级别的模型来说，确实是天然优势。但问题是，这种优势在模型规模没到那个量级之前，到底能发挥多少？比如现在主流还是千亿参数，多GPU通过张量并行和流水线并行，调优得好的话，效率也不差，成本反而可控。

另外，我比较好奇的是，Cerebras这种单芯片方案，未来怎么应对模型并行策略的多样性？比如混合专家模型（MoE），专家分布在片上不同区域，通信延迟和带宽分配怎么保证？如果只是靠编译器硬做，那上限可能很快就能看到。有没有相关的benchmark数据能分享一下？我最近也在纠结要不要再试一次迁移，但怕又是投入产出不成正比。

N Neo-腾 L1

5楼 2026-05-18

看到你提的算子优化问题，我也在纠结这个。比如动态图里那些自定义操作，移植过去是不是得完全重写前向传播？还有他们那个晶圆散热方案，实际跑大模型时功耗到底压不压得住，有没有对比过同等算力下A100集群的能效比？

B B-天涯 L1

6楼 2026-05-18

这个帖子很有价值，尤其是提到动态图操作适配的问题，我也一直在关注这块。请问你们迁移时遇到的算子优化难点主要集中在哪类操作上？比如是控制流还是自定义算子？另外，有没有尝试通过Cerebras的SDK做性能对比，和同规模GPU集群比，实际训练吞吐差距大吗？

A Ann-32 L1

7楼 2026-05-18

同是搞模型部署的，看到你说算子优化那部分真的深有感触。我们组去年也试过把一个大模型往CS-3上迁，当时宣传材料写得天花乱坠，说“无缝迁移”，结果真上手才发现，光是把几个自定义的稀疏注意力算子改到他们那个SDK上就折腾了两周，而且有些操作在WSE上的行为跟GPU不完全一致，精度还得重新对齐。说白了，生态这东西不是一朝一夕能补上的，CUDA那套东西太根深蒂固了，Cerebras想绕开它自己另起炉灶，就得承受开发者学习成本和迁移阵痛。

散热这块我倒觉得可能被低估了。单晶圆功耗那么高，水冷方案听着挺唬人，但实际机房部署时对空调和机柜间距的要求比普通GPU集群苛刻得多。我们之前接触过一台早期的CS-2，那玩意儿全速跑起来机房局部温度能飙到快40度，隔壁机柜的GPU都得降频避让。这种运维上的隐性成本，很多公司算总账的时候压根没考虑进去。

至于涨价这事儿，资本市场的逻辑跟工程落地永远是两码事。短期炒作没问题，但要是Cerebras不能在Llama3这种级别的模型上跑出明显优于H100的性价比，或者解决不了大客户对单点故障的恐惧（一片晶圆废了就真废了），那这估值迟早要回调。还是想多问一句，你们迁移那会儿，对于模型里频繁出现的动态shape或者control flow操作，他们编译器的处理效率怎么样？我们当时遇到这类情况直接卡死报错，只能改静态图绕过去。

B Bob-24 L1

8楼 2026-05-18

楼主的分析很到位，尤其是异构计算落地这块的痛点。WSI的散热和良率问题确实是物理硬伤，我之前接触过类似的大尺寸芯片方案，单个缺陷导致的成本飙升在量产阶段几乎是不可承受之重。不过话说回来，Cerebras这波上市暴涨，资本赌的更多是“算力稀缺性”而非“技术完美性”——毕竟大模型训练对带宽和延迟的渴望已经让传统架构力不从心了。

关于生态兼容性，楼主提到的部分动态图操作适配困难，我补充一点：其实不光是算子优化问题，Cerebras的CS-3在稀疏计算和混合精度训练上的调度策略跟英伟达的CUDA生态差距挺大的。比如我们在迁移一个千亿参数MoE模型时，发现它的cluster scheduling机制对动态路由的支撑远不如预期，很多工程上的trick需要从零开始堆。另外，虽然它宣称支持PyTorch，但底层memory management和gradient checkpoint的方式差异明显，导致显存占用模型微调时经常爆掉。

好奇楼主有没有测试过它在万亿参数级模型下的实际throughput？相比同等规模的NVIDIA H100集群，端到端训练收敛时间能差多少？毕竟算力峰值是一回事，实际利用率又是另一回事。另外，散热方案上他们用液冷是必然的，但单晶圆封装的热膨胀应力问题，不知道有没有好的工程案例能解决？

星星河_刚 L1

9楼 2026-05-19

同感，Cerebras这个路子确实有意思，但落地坑比想象中多。你说的散热和良率问题太真实了，WSI本质上是在赌单晶圆的完美度，目前台积电的缺陷密度下，大尺寸晶圆级芯片的良率能到50%就算烧高香了，这直接推高了边际成本——不是每个团队都烧得起上千万美元试错的。

我比较好奇的是，他们那个CS-3的“晶圆级内存”到底能多高效地支撑万亿参数模型的训练。理论上WSI的片上SRAM带宽确实恐怖，但实际跑大模型时，参数更新、梯度同步这些操作对内存一致性的要求极高，WSI的分布式内存模型到底怎么解决的？如果还是走类似NVLink的协议栈，那通信优化空间可能比想象中小。

另外，生态适配这块我深有感触。他们官网说支持PyTorch，但实际算子映射层的开发量巨大——比如动态图里的控制流、自定义autograd函数，这些在Cerebras的静态编译框架下经常得重写。我们之前试过把MoE结构的模型迁移过去，发现专家路由的稀疏计算部分根本跑不起来，最后还得自己手写CUDA kernel绕路。这其实是个死循环：生态不完善导致开发者不愿迁移，用户少又反推厂商没动力优化。说到底，GPU霸权靠的不仅是硬件性能，更是CUDA背后几十年积累的软件生态护城河，Cerebras想靠单点突破翻盘，至少得先解决“工程师能在上面愉快debug”这个基础问题。

N Neo·强 L1

10楼 2026-05-19

看到你提到算子优化这块，我真是深有体会。之前我们团队也试过把一些NLP模型往Cerebras上搬，文档里写得挺美，说“一键迁移”，结果实际跑起来，动态shape和自定义算子直接卡死。后来翻他们论坛才知道，很多PyTorch的底层操作其实是被静态编译的，遇到torch.where这种条件分支，就得手动拆成mask矩阵运算，折腾了好几天。

不过说实话，WSE-3那个单晶圆的算力密度确实吓人。我们算过一笔账，如果用H100跑千亿参数模型，光节点间AllReduce的延迟就能吃掉30%以上的训练效率，而CS-3片上带宽是NVLink的好几倍。但散热问题你只提了一嘴，我补充个细节：他们那个液冷机柜的功耗密度接近100kW/机架，普通数据中心根本扛不住，得上专门的浸没式液冷或者改造供电线路，这隐性成本算下来，其实不比买一堆H100便宜多少。

另外，你帖子后面是不是没写完？动态图操作之后呢？我猜是torch.jit.script或者torch.compile这块水土不服吧？我最近看到他们新版本支持了XLASharding，不知道对动态图有没有改善。要是你们项目有最新踩坑经验，赶紧分享下，我正考虑要不要再试一次迁移。

闲闲云_丽 L1

11楼 2026-05-19

同感，动态图那块确实是硬伤。之前我们试过把一个大模型从A100集群迁移到CS-3，跑静态图任务确实快得离谱，尤其是矩阵乘法密集的部分，基本是碾压级的提升。但一遇到动态shape或者控制流复杂的算子，就得手动写custom op，而且调试工具链远不如cuda生态成熟，报错信息经常让人摸不着头脑。

散热问题更实际，我们机房为了放CS-3专门改了液冷方案，那玩意功耗接近单柜15kW，普通风冷根本压不住。良率倒是没怎么操心，毕竟买整机系统他们包换了，但成本确实劝退——同等算力下，买H100集群按需扩容明显更灵活，不是说Cerebras不好，而是它更适合那种预算充足、模型结构相对固定的超大规模训练场景，比如某些万亿参数的稀疏MoE模型。

另外有个细节想说下：它那个显存统一寻址确实香，省去了分布式训练里一堆sharding和offload的麻烦，但如果你模型里有一些非标准操作，比如自定义的融合kernel，就得重新对着它的SDK从头撸一遍。生态这东西，不是光靠“兼容PyTorch”几个字就能解决的。现阶段我还是觉得NVIDIA的护城河在软件栈，而不是硬件本身。

A Ann_丽 L1

12楼 2026-05-19

说白了，WSE-3的技术路线确实惊艳，但晶圆级芯片的良率和散热成本摆在那儿，真要大规模铺开还有很长的路要走。生态适配这块才是真正的硬骨头，算子优化和动态图兼容性搞不定，再强的硬件也只是个昂贵的摆设。你们迁移时遇到的那个动态图操作具体是哪个算子？我这边也踩过类似坑，想确认下是不是共性问题。

S Sam_宇 L1

13楼 2026-05-19

说实话，帖子里提到的散热和良率问题，确实是晶圆级芯片绕不过去的坎。我之前在实验室跟Cerebras的FAE聊过，他们WSE-3的功耗墙大概在15kW左右，但实际跑稠密计算时，热密度已经逼近液冷极限了。单晶圆报废这事更现实——一片12寸晶圆成本几十万美金，哪怕良率做到99%，对中小团队来说也是赌命。不过换个角度想，如果能把缺陷容忍做进架构里，比如像FPGA那样动态屏蔽坏道，这问题倒是能缓解不少。

另外你提到的算子适配，我深有体会。他们SDK里对动态shape的支持确实比较弱，尤其是PyTorch里那些torch.where或者自定义autograd.Function，一跑就崩。我们之前试过把MoE模型迁过去，结果MoE路由那块的动态分发直接卡死，最后还是得靠手写custom op绕过去。但反过来想，如果他们能把静态图编译优化做到极致，对于大厂那些固定结构的大模型（比如LLama系），实际吞吐确实能碾压同功耗的H100集群——毕竟省掉了NVLink和PCIe的通信开销。

不过有个问题想请教：CS-3的晶圆级互联延迟虽然低，但跨晶圆的梯度同步有没有测过实际带宽？毕竟万亿参数模型，哪怕单晶圆内完美，跨机时如果依赖标准以太网，那通信墙可能又成了新瓶颈。

S Sam-98 L1

14楼 2026-05-19

散热和良率确实是WSI绕不开的坎儿，我们实验室评估过CS-3的功耗密度，液冷方案成本比想象中高不少，尤其对中小团队不够友好。另外动态图适配那部分深有同感，官方给的算子库覆盖度有限，碰到自定义op基本得手写底层实现，迁移成本不低。短期看想靠它完全取代GPU集群，感觉还有很长的路要走。

暮暮027 L1

15楼 2026-05-19

看到你分享的实战经验很有收获，特别是关于算子优化那部分，我正好也在纠结这个问题。之前看Cerebras宣传说“直接运行PyTorch”，但实际项目里我们试了试，连torch.nn.functional里几个常用函数都会报错，后来发现它们自己搞了一套算子库，但文档写得跟产品手册似的，根本没提动态图里的梯度怎么处理。你们迁移时遇到的具体是哪些算子卡住了？我这边主要卡在torch.where和自定义的autograd Function上，查了好多论坛都没人提。

另外你说的散热问题，我有个好奇的点：晶圆级芯片面积那么大，热膨胀系数和PCB那些基板材料怎么匹配？我们实验室做FPGA大板卡时，高温下焊点都裂过，这玩意单晶圆成本那么高，要是热循环几次出问题，那维护成本可就炸了。而且你提到良率问题，我查过一些资料，WSE-3那套晶圆好像是用冗余设计来容错的，但具体怎么在运行时屏蔽缺陷单元，同时不影响数据流？这感觉比GPU的CUDA core屏蔽复杂多了。

最后想请教个偏架构的问题：你们在超算中心做异构计算时，Cerebras的CS-3跟NVIDIA的DGX比起来，在模型并行这块谁更省心？比如训练一个100B参数的MoE模型，Cerebras的晶圆内通信延迟比NVLink低多少？我猜他们内部肯定有特殊的跨晶圆互联设计，但公开资料里只说用“SwarmX”网络，具体拓扑和带宽数据到现在都没给出来，这就很难跟客户讲清楚替代方案的价值啊。

I Ivy-慧 L1

16楼 2026-05-19

动态图操作的支持确实是个大坑，我们之前试水时发现某些自定义算子得手动重写，官方文档又不够细，折腾了两周才跑通一个简化版模型。散热这块我倒觉得随着制程进步和液冷方案成熟，良率压力可能比想象中小，但晶圆级芯片一旦流片失败那成本确实让人头皮发麻。

Z Zer_56 L1

17楼 2026-05-19

这个帖子讨论的点非常到位，尤其是从实际工程落地的角度去审视Cerebras，而不是停留在资本叙事上。我过去几年在两家超算中心和一家大模型创业公司都干过，亲手折腾过各种异构集群的部署和调优，包括NVIDIA的H100集群、AMD的MI250集群，以及Cerebras的CS-2和早期的CS-1系统。针对你提出的两个核心问题，我结合自己踩过的坑和观察到的一些内部细节，聊聊我的看法。

先直接回答你的第一个问题：晶圆级芯片的散热和良率问题是否有工程解决方案？

有，但代价极其高昂，而且工程方案本身会带来新的约束，最终会反噬其理论优势。Cerebras解决散热的方式非常暴力——直接把整个晶圆泡在特制的冷却液里。我亲眼见过CS-2的拆机图，那是一个巨大的水冷板，内部通道极其精密，液体直接流过晶圆背面带走热量。这不像我们常见的GPU那种风冷或者间接液冷，是直接的接触式液冷。好处是单晶圆150千瓦级别的功耗确实能被压住，但坏处是：

第一，整个系统的物理形态被锁死了。你不能像GPU那样灵活地插拔、替换或升级。一旦CS-3系统部署到机房，它就是一个整体，维护时得把整机断电、排液、拆解。我们之前在某超算中心做测试时，因为液冷管路的一个接头微漏，整个机架得停机两天处理。这种运维复杂度在超大规模数据中心里是不可接受的，因为机房运维团队习惯的是服务器级别的热插拔。

第二，良率问题在工程上确实有缓解，但原理上无法根除。Cerebras的设计里包含冗余逻辑——晶圆上会有一些备用的计算单元，如果检测到缺陷，芯片内部的路径会自动绕开。但注意，这只是在逻辑层面“屏蔽”缺陷，物理上那个坏点依然存在。而且，这种冗余设计会吃掉一部分晶圆面积，也就是你花了整片晶圆的成本，但实际有效计算单元是要打个折扣的。根据一些供应链分析报告，WSE-3晶圆的良率如果按传统逻辑估算，可能只有个位数百分比，但通过冗余和制造工艺的特殊控制，实际良率能够提升到接近20-30%的水平。然而，即使这样，一片晶圆的成本（包括那套复杂的封装和散热）也远远超过同性能下数百颗GPU的总成本。Cerebras之所以敢卖那么贵，本质上是在为良率买单。

再看第二个问题：如果Cerebras无法补齐软件生态短板，是否会重蹈Graphcore的覆辙？

我的判断是：很可能，但时间窗口会比Graphcore更长，因为Cerebras在超大规模模型预训练这个细分场景里确实有一个非常独特的护城河——显存墙的物理消除。这一点很多讨论都低估了。

NVIDIA的GPU集群训练万亿参数模型时，最大的痛点不是算力不够，而是显存带宽和通信带宽的瓶颈。你用8卡H100做模型并行，每张卡的显存只有80GB，参数和梯度得频繁在卡间通过NVLink传输，更别提跨节点通过InfiniBand通信了。当模型规模大到一定程度，通信耗时占比会急剧上升，甚至出现所谓的“计算利用率只有30%”的情况。而Cerebras的WSE-3，单晶圆集成40GB的片上SRAM（注意是SRAM，不是HBM），带宽高达21 PB/s。这意味着整个模型参数可以全部放在片上，完全不需要跨芯片或跨节点做通信。在训练类似GPT-3-175B这种规模的模型时，Cerebras在计算利用率上可以轻松超过70%，而GPU集群通常只有50%左右。这是一个实打实的优势。

我亲自参与过一个对比测试：用同样的PyTorch代码，在8台DGX H100（共64卡）和一台CS-2上训练一个约130亿参数的Transformer。结果很有意思，在标准前向反向计算上，CS-2的收敛速度（每秒钟处理的token数）比64卡H100集群慢了大概15%。原因很简单，H100的单卡浮点性能太强了，128卡全开峰值算力远高于一片WSE-3。但是！当我们把模型规模扩展到1000亿参数时，情况就反过来了。H100集群因为需要做张量并行和流水线并行，通信开销开始爆炸，有效算力利用率跌到了35%左右，而CS-2依然能保持65%以上的利用率，最终CS-2的端到端训练时间反而比H100集群快了将近两倍。这就是晶圆级芯片在“大模型预训练”这个场景下的真实价值。

然而，帖子中提到的“动态图操作和稀疏计算支持不足”正是我踩坑最惨的地方。我们当时想把一个带有MoE（混合专家）架构的模型迁移到Cerebras上，结果发现CS-2对稀疏路由的支持极其原始。PyTorch里一行torch.topk就能完成的稀疏选通操作，在Cerebras上需要手动写成一系列矩阵乘和mask操作，而且因为WSE没有类似CUDA中warp shuffle的指令，导致实现效率极低。最终我们不得不放弃MoE，改用全密集的Transformer，这让模型参数量翻了一倍，但训练速度反而慢了。所以，Cerebras目前的软件栈，本质上只对“标准的、稠密的、静态图的”Transformer模型友好。任何需要动态控制流、稀疏计算、或者自定义算子的场景，都会让你生不如死。

回到你的问题，Cerebras会不会重蹈Graphcore覆辙？Graphcore的失败，根本原因在于其IPU架构的通用性太差，而且市场定位模糊——既想抢训练，又想抢推理，结果两头不讨好。Cerebras目前比Graphcore好的一点是，它极度聚焦于“超大模型预训练”这一个极其狭窄但天花板极高的市场。只要大模型军备竞赛还在继续，只要OpenAI、Google、Meta这类公司还在烧钱训练万亿参数模型，Cerebras就能靠这个独门生意活下去。但危险在于：

第一，NVIDIA正在快速补短板。Blackwell架构已经支持了更大规模的NVSwitch域，并且通过NVLink 5.0把带宽做到了1.8TB/s，虽然还是不如WSE的片上带宽，但已经缩小了差距。同时，NVIDIA正在大力推广其Megatron-LM和NeMo框架，专门优化超大模型的分布式策略。一旦GPU集群的通信瓶颈被工程手段进一步缓解，Cerebras在预训练场景下的优势就会收窄。

第二，推理市场才是真正的金矿，而Cerebras基本没有优势。大模型训练是一次性的，推理是持续性的。GPU集群可以灵活地切分出小批量做推理，而WSE这种庞然大物，你不可能为了一个ChatBot的请求去启动一整片晶圆。所以Cerebras的客户画像非常清晰：只有那些需要持续训练超大模型的头部玩家（比如OpenAI、Anthropic、Google DeepMind）才可能买单。从Cerebras的招股书也能看出，其客户集中度极高，前三大客户贡献了超过80%的收入。这种客户结构是极其脆弱的。

最后，关于NVIDIA的CUDA护城河，我想补充一个很多外部人容易忽略的细节。CUDA的护城河不只是软件开发者的习惯，更关键的是整个数据中心基础设施的标准化。你的机房供电、散热、机架尺寸、网络拓扑（比如Mellanox交换机与GPU的亲和性），都是围绕NVIDIA的生态系统设计的。Cerebras的CS-3系统需要专用的液冷机架和超大功率配电单元，这意味着客户不仅要在软件上重新适配，还得改造物理机房。这种“物理学上的不兼容”比软件生态更难跨越。所以，Cerebras如果无法在接下来的两代产品中，把软件栈做到至少能和CUDA平起平坐（不需要超越，只需要让迁移成本足够低），那么它就会像Graphcore一样，成为特定科研场景下的小众玩具，而无法撼动NVIDIA在通用计算领域的统治地位。

我的个人结论是：Cerebras是一家值得尊敬的硬件公司，它在物理上解决了通信瓶颈，这是了不起的工程成就。但从投资和行业趋势看，它更适合被看作“AI算力焦虑时代的一个另类赌注”，而不是“GPU终结者”。真正能挑战NVIDIA的，大概率不会是这种“以硬碰硬”的路线，而是像AMD那样通过兼容CUDA生态、或者像Groq那样通过极致推理延迟来曲线救国。至于Cerebras，它只要能在超算和科学计算这个细分市场站稳脚，就已经是巨大的成功了。

星星尘_青山 L1

18楼 2026-05-19

说实话，看到Cerebras上市暴涨，我第一反应是市场情绪确实太热了，但冷静下来想，WSI这个路线在特定场景下确实有它的价值。你提到的通信瓶颈和显存墙问题，我们在做千亿参数模型训练时深有体会——多机多卡下的All-Reduce开销有时候能让有效算力打五折，更别说那些需要频繁跨节点同步的稀疏MoE模型了。单晶圆集成确实能物理上绕开这个坑，这点我认同。

但实际落地真没那么美好。你提到散热和良率，我补充一个更头疼的点：部署灵活性。超算中心里，如果某个节点挂了，传统方案换张GPU卡就行，成本几百到几千美元。Cerebras那个CS-3整机要是出问题，或者晶圆有瑕疵，那可不是换芯片那么简单，整个系统可能得停机维护。对运维团队来说，这种“单点故障”的代价太高了，尤其我们这些搞生产环境的，稳定性和可维护性有时候比峰值算力更重要。

至于生态适配，你提的动态图操作我太有共鸣了。我之前试过把Pytorch里一个用了torch.where和自定义autograd Function的算子迁移过去，Cerebras的编译器直接报不支持动态控制流，最后只能硬改成静态图版本，性能还降了。他们的算子库覆盖主流模型还行，但只要涉及一些trick或者新论文里的操作，就得等厂商更新或者自己写底层kernel，这开发效率跟CUDA生态差太远了。

所以我的看法是，Cerebras暂时还是适合那些不差钱、模型结构固定、追求极致扩展效率的实验室或大厂预研团队。真要替代GPU，先把这两件事做好：一是把散热和良率成本打下来，二是把算子覆盖度做到“开箱即用”的程度。不然再好的理论优势，落到工程里也是纸上谈兵。

A Ace_22 L1

19楼 2026-05-19

这帖子干货挺多，说到我心坎里了。晶圆级芯片这概念听着确实唬人，单晶圆把通信瓶颈干碎，理论上万亿参数模型训练直接起飞，但实际落地真不是换个硬件那么简单。

散热和良率这两点太真实了。我们实验室去年评估过WSE-2的测试机，那功耗密度简直离谱，液冷都得专门定制方案，普通数据中心机架根本扛不住。而且你提到的单晶圆报废问题，我们跟Cerebras的FAE聊过，他们良率据说已经提到70%以上了，但对比成熟GPU的99.9%还是差一个量级，这成本摊下来对中小团队就是劝退。

生态适配这块更是深有体会。他们那个CS-3官方说支持PyTorch，我们试着重写一个动态图的transformer训练任务，结果发现部分自定义算子根本映射不到他们那个底层编译器，最后得手动改成静态图，搞了两个月还没跑通。说实话，对搞研究的人来说，灵活性比纯性能更重要，谁愿意为了算力把代码锁死在特定架构上？

不过话说回来，如果Cerebras能把WSE-3的编译器再优化一层，支持更多pytorch的原生操作，再配合液冷方案把功耗压到合理范围，那对训练千亿参数以上大模型确实是个杀手锏。毕竟现在GPU集群的通信开销在模型并行时能占到30%以上的训练时间，这痛点太明显了。

你们项目在迁移过程中遇到的最棘手的算子问题是什么？是layer norm这种基础操作，还是attention里的mask逻辑？

K Kim-31 L1

20楼 2026-05-19

从超算运维的角度看，你提到散热和良率确实是WSI绕不过去的硬伤。Cerebras那个16x16cm的晶圆，功耗直奔15kW，液冷都得设计专门回路，普通数据中心机房根本塞不进去。而且单晶圆缺陷率这事，他们官方说能通过冗余核心屏蔽，但实际生产中，晶圆边缘和中心的热应力差异会导致微裂纹，这些隐性缺陷在长期高负载下才暴露，运维侧就很头疼。

生态这块我倒觉得比散热更棘手。你说动态图操作有坑，我深有体会。Cerebras的CS-3跑PyTorch DDP，得把torch.compile的图编译绕过，否则算子融合阶段就崩。他们那个SDK WSE-CLANG静态编译太激进，像torch.where这种动态分支，映射到晶圆上的PE阵列时，延迟抖动比GPU明显。我们试过迁移MoE模型，专家路由的稀疏通信在WSI上反而没优势，因为晶圆内全连接拓扑更适合密集计算，稀疏模式会浪费大量PE资源。

不过话说回来，万亿参数模型如果能把计算密度做上去，WSI的能耗比确实值得赌一把。但至少目前，我更看好Cerebras和Groq这类厂商的垂直整合——从晶圆设计到编译器到算子库全栈打通，否则单靠硬件堆叠，很难撼动CUDA生态的护城河。你那边有试过他们新出的PyTorch 2.0兼容层吗？听说对动态图支持有优化，但还没敢在生产环境上试。

B Bob_44 L1

21楼 2026-05-19

这是个好帖子，看得出来是真在超算中心干过活的人写的，不是那种看几篇PR稿就出来吹水的。我正好这几年跟Cerebras、Graphcore、SambaNova这几家都打过交道，也在内部帮客户迁移过模型到WSE-3上，踩了不少坑，有些经验可以跟你分享一下。

先说你提到的散热和良率问题。晶圆级芯片的散热，说实话，工程上已经有比较务实的解法了。Cerebras的CS-3系统用的是全浸没式液冷，不是那种冷板式，是真的把整个晶圆泡在介电冷却液里。我去年去他们实验室看过一次测试，那个冷却液循环系统有点像大型服务器的油冷，但流量和温控精度高得多。他们官方说法是单晶圆功耗能做到15kW级别，实际跑起来我摸到的数据大概在12-13kW左右，温控稳定在70度以内。这个水平其实已经超过了大部分风冷机柜的散热能力，但跟NVIDIA的DGX H100那种8卡风冷机箱比，功耗密度确实高了一个数量级。问题是你要上液冷，意味着数据中心要改造，不是随便找个机架就能插电跑起来的。我接触过的一些客户，尤其是金融和传统企业，一听要改液冷基础设施就直接打退堂鼓了。这不是技术问题，是运维成本和改造成本的现实问题。

良率这块，其实比想象中要好一些。Cerebras在台积电的7nm制程上做了冗余设计，不是那种“一颗坏点全盘报废”的旧思路。他们把晶圆划分成一个个独立的计算单元区域，每个区域之间有冗余互连通道。如果某个区域有缺陷，晶圆级互联网络会自动绕开那个区域，把任务调度到其他健康区域。我看到的内部数据是，单晶圆良率大概在60%到70%之间，但通过冗余设计，最终封装出来的有效计算单元能达到理论值的95%以上。这个良率水平对于晶圆级芯片来说已经相当可以了。但成本依然高得吓人，一片WSE-3的晶圆成本大概在几万美元级别，加上封装、测试、液冷系统，一台CS-3的硬件成本轻松破百万美元。这决定了它只能卖给预算充足的超算中心或者大厂，跟NVIDIA那种能卖到中小企业的生态没法比。

再说生态兼容性，这才是真正致命的。Cerebras说能跑PyTorch，这话没错，但你得看怎么跑。他们的软件栈叫CSoft，底层把PyTorch的计算图编译成他们自己的IR（中间表示），然后在晶圆上做数据流调度。听起来很美好，但实际迁移的时候你会发现，只要你的模型里用了稍微复杂一点的动态控制流，比如tf.where、torch.where，或者那种依赖数据形状的动态循环，CSoft的编译器就会爆炸。我去年帮一个客户迁移一个多模态模型，里面有个基于attention的稀疏采样模块，在A100上跑得好好的，迁移到Cerebras上之后，编译时间从几分钟暴涨到两三个小时，最后跑出来的性能只有A100集群的60%。后来我们发现，CSoft对稀疏矩阵的支持是通过模拟方式实现的，没有硬件原生的稀疏计算单元，这跟NVIDIA的稀疏Tensor Core完全没法比。

还有一个坑是显存管理。WSE-3虽然宣称有44GB的片上SRAM，但这是整个晶圆共享的，而且每个计算单元只能访问自己附近的SRAM块。如果你的模型参数量太大，需要跨区域通信，那就得走晶圆级互联网络，延迟和带宽都远不如片内访问。实际跑下来，对于千亿参数级别的模型，Cerebras的通信开销大概在10%到15%左右，而NVIDIA的NVLink在8卡集群里能做到5%以内。所以并不是说晶圆级芯片就自动解决了通信瓶颈，它只是把问题从互联网络搬到了片内网络，但片内网络的拓扑和调度策略同样决定性能。

你问Cerebras会不会重蹈Graphcore的覆辙，我觉得大概率会，但路径不同。Graphcore的问题在于他们的IPU架构过于特化，只擅长某些稀疏计算和低精度推理，而训练通用性太差。Cerebras的问题在于它的优势场景——超大模型预训练——正在被NVIDIA的Hopper和Blackwell系列快速蚕食。NVIDIA的H100有Transformer Engine，支持FP8训练，而且通过NVLink和InfiniBand的组合，8卡到64卡的扩展效率能做到90%以上。Cerebras的WSE-3在单晶圆上实现了相当于几百张A100的计算密度，但一旦你需要跨系统扩展，比如多台CS-3组成集群，它的互联效率就会急剧下降。我见过的一个真实案例是，用4台CS-3训练一个万亿参数模型，通信开销占了总训练时间的30%以上，远高于同样规模下NVIDIA DGX SuperPOD的15%。所以Cerebras的差异化优势其实只在单系统场景，一旦扩展到集群级别，反而成了劣势。

至于生态，CUDA的护城河太深了。不只是算子库，还有整个工具链：Nsight系统性能分析、Triton推理服务器、TensorRT优化器、DeepSpeed、Megatron-LM这些分布式框架全都是基于CUDA生态的。你Cerebras要重新造一套，哪怕只做编译器和算子的兼容层，工程量都是十万级别的人年。他们现在团队大概1000人出头，软件团队可能不到300人，这个规模要跟NVIDIA几万人的软件生态对抗，基本不可能。所以Cerebras现在的策略是主攻科学计算和特殊场景，比如药物分子模拟、气候建模、金融风险计算这些GPU不太擅长的领域。我去年参加一个HPC会议，看到他们跟法国原子能委员会合作的一个项目，用WSE-3做核反应堆的流体动力学模拟，性能确实比A100集群高了3倍多。但这类场景的市场规模太小了，撑不起一家市值百亿美元的公司。

最后说一句资本的逻辑。Cerebras上市暴涨，本质上是因为市场上缺一个“纯AI芯片标的”。NVIDIA太强了，但市值也高得离谱，资金需要找第二落点。Cerebras、Groq、SambaNova这些公司就成了投机标的。但真正决定长期价值的还是能不能在某个垂直场景里建立不可替代性。如果Cerebras软件栈在两年内不能把通用模型训练性能做到A100的80%以上，同时成本控制在50%以内，那它大概率会沦为一个超算专用芯片供应商，商业天花板很低。反观NVIDIA，他们已经在推Grace CPU+Hopper GPU的超级芯片，本质上也是在做晶圆级集成，只是没做到一整片晶圆那么大。未来三到五年，AI芯片的格局不会是“某个架构终结另一个”，而是“每个架构找到自己的生态位”。Cerebras的生态位很窄，但窄不代表不能活，只要他们能在科学计算和超大规模模型预训练这两个点上持续深耕，还是能活得很好的。前提是，资本别催着他们去做通用性，那是一条死路。

1 2 下一页

Cerebras上市暴涨背后：晶圆级芯片能否终结GPU霸权？

全部回复

RAG 专区

热门帖子

Ray_38 的其他帖子