中山大学团队的灵晟超算以纯CPU架构拿下TOP500第一,这个结果确实让我这个搞过HPC集群的老工程师有点意外。核心在于LX2芯片集成了304个自研核心,加上国产HBM内存和灵启互连网络,在HPCG上同样夺冠——这意味着不仅峰值算力强,实际应用中的内存带宽和通信延迟也控制得很好。从个人经验看,GPU在AI训练中确实高效,但在传统科学计算(如CFD、分子动力学)中,CPU的通用性和内存一致性反而更有优势。灵晟的设计思路更像是为AI4S(AI for Science)定制:用大量低功耗核心堆并发,配合高带宽内存,绕过了GPU在稀疏计算中的显存瓶颈。这让我想起当年天河一号用CPU+GPU混合架构时的争论,现在纯CPU路线用自研互连和HBM把短板补齐了。一个值得讨论的问题是:这种架构在真实科研负载(如气象模拟、蛋白质折叠)中,相比NVIDIA的Grace Hopper方案能有多少能效优势?另一个是国产HBM内存的良率和成本能否支撑商业化推广?从行业格局看,这打破了‘超算必须用GPU’的思维定式,也证明中国在芯片设计和系统集成上已经能独立造出顶级超算。虽然距离大规模商用还有距离,但对国内HPC生态来说是个强心针。
零GPU登顶超算榜首:CPU路线真的能打吗?
全部回复
共 3 条这个分析挺到位的,LX2用那么多自研核心堆并发确实绕开了GPU在稀疏计算上的短板,而且HPCG夺冠说明实际应用场景下的表现不虚。不过好奇的是,这种纯CPU方案在AI训练里面对大模型的时候,跟同等算力的GPU集群比,能效和吞吐到底差多少?毕竟科学计算和AI训练现在越来越分不开了。
这个帖子看得我挺有感触的。我也是搞了好几年HPC的老兵,之前一直觉得GPU在AI这边是铁打的主力,CPU那边更多是历史遗留问题。但灵晟这个结果确实让人重新审视一下——原来纯CPU也能在TOP500和HPCG上双冠,而且HPCG成绩好说明实际应用场景下的稀疏矩阵运算、内存带宽瓶颈确实被绕开了。
我觉得关键还是那个“AI for Science”的定位。现在很多科学计算任务,比如分子动力学里的多体问题、CFD里的网格自适应,GPU虽然能堆算力,但显存带宽和内存一致性上确实有硬伤。LX2用大量低功耗核心堆并发,配合高带宽内存,这个思路其实很像当年Nvidia搞DGX之前大家尝试过的ARM集群变种
。不过话说回来,灵晟的HBM内存是自研的,这个能跟得上吗?我比较好奇他们的内存带宽和延迟具体测试数据,尤其是跟Xeon Phi或者EPYC的对比,因为HPCG对内存带宽要求极高。
另外,我有个疑问:纯CPU架构在AI训练里到底行不行?虽然灵晟这个算传统科学计算赢了,但真要跑大模型训练,CPU的并行效率肯定还是不如GPU。他们会不会以后走混合路线,或者干脆搞个类似CUDA的加速库?毕竟现在很多新应用都是AI+传统计算的混合体了。
总之,这个结果证明了CPU路线在特定场景下确实能打,但要说全面取代GPU,我觉得还太早。倒是提醒我们,做系统设计不能只看峰值算力,得看应用场景的“实际痛点”在哪。
这个结果确实挺有意思的。我关注的点倒不是它拿了第一,而是灵晟在HPCG上的表现——这个benchmark比Linpack更贴近实际应用场景,能同时夺冠说明它的内存层次设计和互连网络确实有两把刷子。CPU路线在传统科学计算里一直有它的底盘,尤其像CFD、分子动力学这类对内存一致性敏感、访存模式不规则的计算,GPU的SIMT架构反而容易受限于warp divergence和显存带宽利用率的问题。
不过我也在想一个现实问题:这套架构在AI训练场景下,跟同等算力的GPU集群比,能效和实际吞吐到底差多少?毕竟现在AI负载里矩阵乘法占大头,CPU靠大量低功耗核心堆并发,还是绕不开单核向量化能力的瓶颈。而且灵晟用了HBM,内存带宽是上去了,但CPU到HBM的延迟控制跟GPU那种紧耦合的设计比起来,会不会在混合精度训练或者大模型推理的场景里吃亏?
另外,从生态角度看,这套CPU架构的软件栈成熟度也是个隐形成本。HPC领域有不少老代码是OpenMP或者MPI写的,迁移到ARM或者自研指令集上可能还好说,但AI框架(比如PyTorch、TensorFlow)对CPU的优化深度和GPU完全不是一个量级,很多算子对AVX512或者SVE做了针对性调优,换成新核心架构,这些优化能不能复用?如果只是靠通用编译器和手写汇编去怼,开发维护成本可能会很高。
不过话说回来,AI4S这个方向确实需要异构计算的灵活性,纯CPU方案在特定稀疏场景下可能比GPU更干净利落。灵晟这个路线更像是在赌未来科学计算对通用性和可编程性的需求会超过对纯粹算力的追求,这个赌注挺大的,但至少给行业多了一个选择。