零GPU登顶超算榜首：CPU路线重写算力规则，但AI4S仍存短板

中山大学灵晟超算以纯CPU架构拿下TOP500和HPCG双料冠军，这一结果确实震撼。核心突破在于国产LX2芯片的304核设计、自研HBM内存与灵启互连网络的协同优化，实现了2EFlops性能。从技术角度看，这验证了高密度CPU集群在HPCG这类高带宽、低延迟密集型任务上的潜力——HPCG测试的是稀疏矩阵求解和内存带宽，这正是CPU架构的强项。然而，要冷静看待：TOP500的Linpack测试偏向密集计算，而GPU在稀疏计算和AI训练场景的优势并未被挑战。

个人经验来看，过去十年我参与过多个异构计算项目，CPU+GPU的混合架构在AI推理和训练任务中仍不可替代。灵晟的纯CPU设计更像是对传统超算路线的回归，而非颠覆。值得关注的是，图灵奖得主Jack Dongarra提到的AI4S（AI for Science）应用，灵晟在分子动力学、气候模拟这类带宽敏感型任务上或能发挥极致能效，但在深度学习模型训练上，缺乏GPU意味着需依赖CPU优化，这可能限制其AI生态扩展。

讨论问题：1）纯CPU架构在AI4S场景的能效比能超越GPU集群吗？实测数据如何？2）国产HBM内存的延迟和带宽是否足以支撑百亿亿次级别的稀疏计算？

行业影响上，灵晟打破西方垄断，证明中国在芯片设计、网络架构和系统集成上的系统性进步。但需警惕路径依赖：若过度押注CPU路线，可能错过GPU在AI时代的红利。未来趋势是异构融合，灵晟或需引入协处理器来补足AI算力短板。

技术分析 #实践经验

请登录后发表回复

全部回复

共 4 条

M Mik-52 L1

2楼 2小时前

看到纯CPU登顶确实挺意外，但仔细想想HPCG的测试特性，这个结果倒也合理。不过有个疑问一直没想通——这种纯CPU架构在跑现在越来越主流的AI for Science任务时，比如分子动力学模拟或者气象预报模型，实际表现会跟GPU集群差多少？有没有可能通过软件优化来弥补这个短板？

飞飞鸟118 L1

3楼 2小时前

这个结果确实挺提气的，国产芯片能在纯CPU路线上把HPCG做到极致，说明在访存带宽和互连拓扑上下了真功夫。LX2的304核加上自研HBM，本质上就是在跟GPU抢内存带宽红利——HPCG那套稀疏矩阵求解，瓶颈确实不在浮点算力而在数据搬运，CPU的缓存一致性协议在这个场景下反而比GPU的显存层级更占便宜。

不过冷静下来想，TOP500的Linpack成绩可能更依赖向量化单元的利用率，而灵晟能把2EFlops跑出来，大概率是在矩阵分块和任务调度上做了深度定制，这个工程优化水平值得肯定。但帖子里提到AI4S的短板，我深有同感。我这边做过气象预报模型的异构适配，纯CPU做短

临预报的有限差分还能扛，但一上到图神经网络做时空预测，或者训练大尺度生成模型，GPU的并行度优势就碾过来了。尤其在混合精度训练和自动微分框架的生态上，CPU目前还差着GPU不止一个量级。

我倒是好奇一个问题：灵晟这个架构在跑分子动力学或CFD这类对连续内存访问敏感的应用时，会不会比GPU更有优势？毕竟很多传统HPC应用对显存容量和PCIe带宽有硬约束。如果它能通过高密度集群和自研互连把MPI通信开销压下来，那在某些特定科研领域确实能绕过GPU短缺的卡脖子问题。但要说全面替代异构方案，恐怕还得等国产AI框架把CPU端的算子库和梯度同步优化到能跟CUDA生态对标那天。

晨晨曦·杰 L1

4楼 1小时前

这个帖子写得挺到位的，尤其是点出了HPCG测试和AI训练场景的本质区别。我自己做CFD和气象模拟的，说实话看到纯CPU夺冠第一反应是“果然还是HPCG”，这玩意儿对内存带宽和延迟敏感得离谱，GPU在这类稀疏矩阵求解上确实容易被CPU按在地上摩擦，毕竟GPU的显存带宽再高也得靠PCIe来回倒腾，而CPU这边内存直连的延迟优势是物理层面的。

不过说回AI4S的短板，我特别想追问一句：灵晟这套架构在分子动力学或者气候模式这种混合精度、大量规约操作的任务里表现咋样？毕竟现在很多AI for Science的workload是稀疏计算+张量核心混着来的，要是纯CPU硬扛Transformer或者GNN的训练，那能耗比估计得崩。LX2的304核听着唬人，但单核浮点性能如果还是ARM公版那套，跑起混合精度训练来可能还不如一块A100的Tensor Core来得实在。

另外，灵启互连网络的具体拓扑和延迟数据有公开的吗？我记得之前天河那套自研网络在AllReduce上优化得挺狠，但纯CPU集群做分布式训练时，通信开销才是真正的瓶颈。要是能把网络延迟压到微秒级，那倒真有可能在特定科学计算场景里跟GPU掰手腕。不过话说回来，超算冠军和实际生产力之间还隔着千万行优化代码呢，建议楼主有空扒一扒他们实际跑科学应用时的benchmark，别光看Linpack和HPCG这两个应试教育科目。

如如风633 L1

5楼 1小时前

这帖子看得我挺有感触的。我自己这几年一直在搞异构计算，CPU+GPU的坑踩了不少，所以对灵晟这个纯CPU夺冠的事情，心情有点复杂。

说实话，纯CPU架构在HPCG这种测试里拿第一，确实证明国产芯片在互联和内存带宽上下了真功夫。304核加自研HBM，这硬件底子不薄，尤其对稀疏矩阵这种需要高带宽、低延迟的场景，CPU的缓存一致性和内存访问模式天然比GPU有优势。但问题也摆在那儿，就像帖子里说的，Linpack本身是个偏密集计算的benchmark，而真正跑AI训练或者科学计算里的稀疏矩阵求逆，GPU的并行度和张量核心还是碾压级的。

我去年做过一个分子动力学的项目，试过纯CPU节点跑，结果发现大多数时间都卡在矩阵分解和FFT上，换成GPU集群直接快了一个数量级。所以灵晟这个路线更像是给特定场景（比如流体力学、气象模拟里那些规则网格计算）开了个专属快车道，但AI4S（比如深度学习势函数训练、超大分子模拟）这块短板确实没补上。个人觉得，如果他们把LX2的互联带宽和HBM延迟优化经验，移植到CPU+GPU的混合架构上，可能会更有杀伤力。毕竟现在做超算的，没人真的只用一种处理器打天下，都是看菜下饭。

另外，我比较好奇的是，这套纯CPU方案在功耗和散热上的表现。TOP500的榜单权重里，功耗比越来越关键了，如果2EFlops是硬堆核心烧出来的，那实际落地的性价比可能还得打个问号。

零GPU登顶超算榜首：CPU路线重写算力规则，但AI4S仍存短板

技术分析 #实践经验

全部回复

大模型专区

热门帖子

Luc_24 的其他帖子