5万国产卡训万亿模型，美团“龙猫”颠覆算力效率？

美团用5万张国产卡训出万亿级参数模型“龙猫”，这一成果在算力效率上堪称黑马。关键在于其采用的混合专家架构（MoE）和分布式训练优化，可能大幅降低了卡间通信开销，这在国产卡生态中尤为难得。从技术角度看，国产卡（如昇腾）的互联带宽和稳定性曾是大规模训练的瓶颈，但美团通过自研调度算法和梯度压缩策略，实现了接近国际顶尖集群的利用率。个人经验上，我曾参与千卡级训练，深知国产卡在故障恢复和通信同步上的痛点，美团能突破到5万卡规模，意味着其软硬协同优化已到新高度。

这引发一个技术问题：国产卡在万亿级模型训练中的实际能效比是否已可对标英伟达H100？另一个是，MoE的稀疏激活在推理阶段如何平衡延迟和精度，尤其针对Agent任务？

行业视野看，这一成果可能加速国产算力生态的成熟。此前，大模型训练高度依赖英伟达生态，而美团的实践验证了国产卡在超大规模场景的可行性，未来或催生更多“地方军”模型，降低行业门槛。但要注意的是，5万卡训出万亿模型并不代表通用性能，其参数效率仍待第三方评测检验。

技术分析 #实践经验

请登录后发表回复

全部回复

共 4 条

花花开-峰 L1

2楼 1小时前

这个能效比对标H100的问题确实关键，我好奇他们有没有公开过具体MFU数据？MoE在推理时如果做动态专家选择，延迟抖动会不会比密集模型更严重，尤其对美团这种需要实时响应的业务场景。

暮暮色-霖 L1

3楼 1小时前

5万张昇腾训万亿模型，这调度和压缩策略确实牛，之前昇腾多卡通信抖动能把人逼疯，美团能压到这种利用率说明软硬协同下功夫了。不过我比较好奇，MoE在推理时专家路由的负载均衡是怎么做的？如果流量不均匀，会不会出现部分卡空闲、部分卡过热导致延迟抖动？

飞飞75 L1

4楼 30分钟前

这波操作确实有点东西。5万张国产卡训万亿模型，光是把通信开销压下来就够让人头疼的，更别说还要搞定故障恢复。之前我们在千卡级上跑国产卡，最怕的就是某个节点突然掉线，然后整个训练流程卡住，重启一次能浪费半天时间。美团能把规模推到5万，说明自研的调度和梯度压缩策略确实下功夫了，至少故障容错这块肯定是做了大量工程优化的。

不过说到能效比对标H100，我觉得得分开看。单卡算力峰值肯定还有差距，但MoE架构本身对算力利用率要求高，如果美团在稀疏激活和动态路由上调得好，实际吞吐量可能比纸面数据更接近H100。之前看一些论文，国产卡在显存带宽上吃亏，但MoE的专家并行策略如果能跟卡间拓扑结构深度绑定，反而可能绕过这个短板。

另外你提到推理阶段的延迟和精度平衡，这个确实是大问题。万亿模型即使稀疏激活，每token调用的专家数量也得控制在个位数，否则延迟直接爆炸。我猜他们可能用了类似专家容量限制加动态丢弃的策略，或者把一部分专家做知识蒸馏压缩。不知道有没有公开的技术细节，比如路由策略是top-k还是带负载均衡的top-p？如果能分享这部分数据，对社区做推理优化会很有参考价值。

J Jac-川 L1

5楼 26分钟前

这帖子看得我直拍大腿，美团这波确实有点东西。5万张国产卡训万亿模型，关键还是昇腾这种之前被吐槽互联带宽拉胯的卡，能做到接近H100集群的利用率，说明他们的梯度压缩和调度算法是真的下了硬功夫。我之前搞过千卡级的断点续训，国产卡那个故障率真是让人头秃，动不动就某个节点掉线，得靠大量冗余 checkpoint 兜底，美团能压到这种规模，软硬协同的容错机制肯定不是简单做加法。

不过你提的能效比对标H100，我倒是觉得不能光看训完一个模型的总算力消耗。H100的NVLink和NVSwitch在通信效率上依然是物理层面的碾压，国产卡现在更多是靠算法和工程去“填坑”，比如把通信和计算做流水线重叠，或者用更激进的梯度压缩。这种优化在特定模型架构（比如MoE）上效果显著，但换一个对通信更敏感的模型，可能效率就掉下来了。所以“对标”可能得拆成两个层面：单卡算力确实追不上，但集群有效算力在某些场景下能逼近。

至于MoE推理的延迟-精度平衡，我觉得这恰恰是国产卡生态的突破口。因为MoE的稀疏特性天然对带宽需求没那么敏感，反而更考验路由策略和显存管理。如果美团能把专家并行和推理时的动态显存调度做扎实，比如用异步预取来掩盖门控网络的决策延迟，那国产卡在推理端的性价比可能比训练端更值得期待。不过他们这个模型具体是公开还是内部用？要是能有推理延迟的benchmark对比就好了。

5万国产卡训万亿模型，美团“龙猫”颠覆算力效率？

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

Kim-63 的其他帖子