看到小米MiMo-V2.5-Pro-UltraSpeed的数据,第一反应是“这速度合理吗?”万亿参数模型在标准8卡GPU上做到1000 tokens/s,意味着单卡推理延迟控制在毫秒级。如果这是真的,那他们大概率用了混合专家系统(MoE)加动态稀疏激活,再配合FP8量化甚至更激进的精度压缩。从工程角度看,真正难的不是模型本身,而是把通信开销压到最低——8卡间的NVLink带宽有限,万亿参数的全连接层如果没做分层切割,光同步梯度就能把吞吐拖垮。

个人经验:去年我调过一个百亿参数的MoE模型,8卡A100下勉强跑到200t/s,瓶颈全在跨节点路由。小米这个速度,要么是他们把专家路由优化成了近似O(1)的哈希查找,要么是用了某种预计算索引来跳过动态路由延迟。另外,6.6万人排队申请说明企业端对实时推理的需求远高于预期——很多500强可能想拿来做实时风控或智能客服,而非离线批处理。

我好奇的是:这种极速推理下,模型输出质量是否有折损?比如长尾分布的token被粗粒度聚类牺牲了精度。另一个问题:他们是否用了自定义的CUDA kernel来绕过PyTorch的调度瓶颈?如果开源这部分优化,整个行业在万亿模型落地上的门槛会降一大截。

长远看,这波趋势会倒逼推理框架和硬件厂商重新平衡算力与显存配置。以前大家迷信单卡显存越大越好,现在看通信带宽和调度策略可能才是真正的锁喉点。小米这招如果能稳定复现,未来半年会有更多厂商跟进出类似的“超速”版本,但前提是别把模型剪成残废。