{
title: "小米万亿参数模型突破1000 tokens/s,6.6万人排队申请",
summary: "小米MiMo-V2.5-Pro-UltraSpeed极速推理模型上线两周即收到超6.6万个申请,涵盖世界500强企业及多个行业。该模型在标准8卡GPU节点上实现万亿参数模型输出速度超1000 tokens/s,峰值约1200 tokens/s,速度约为GPT-5.5的15倍。小米宣布延长体验期限,API定价约18元/百万tokens,引发开发者社区热议。",
content: "小米MiMo开放平台近日宣布,其旗舰极速推理模型MiMo-V2.5-Pro-UltraSpeed的体验申请量远超预期,原定6月23日截止的体验窗口已延长开放。这款模型自6月9日上线以来,已吸引超过6.6万个使用申请,申请者包括世界500强公司、行业头部企业以及个人开发者,覆盖法律、金融、通信、物流、汽车制造、文化传媒、高校等多个领域。这一数据不仅彰显了市场对超高速推理的迫切需求,也标志着小米在AI底层技术上的突破获得了行业广泛认可。\n\nUltraSpeed的核心亮点在于,它在不依赖专用硬件的情况下,于标准8卡通用GPU节点上实现了万亿参数(1T)MoE模型的极速推理。其输出速度突破1000 tokens/s,峰值可达约1200 tokens/s,相比行业主流模型有显著优势。据AI基准测试平台Artificial Analysis的数据,GPT-5.5的输出速度约为62-68 tokens/s,Claude Opus约71 tokens/s,Gemini Flash约192-200 tokens/s,UltraSpeed的速度约为它们的15倍。这一成就得益于模型侧和系统侧的协同优化:模型侧采用FP4混合量化,对MoE Expert进行低精度量化以降低访存压力,并引入DFlash投机解码,通过块级并行预测替代传统逐token自回归;系统侧则通过TileRT定制编译引擎与计算核,减少算子启动和同步开销。\n\n在定价方面,UltraSpeed API采用限时体验价,为标准版MiMo-V2.5-Pro的3倍,输出定价约为18元/百万tokens(约合2.65美元/百万tokens),但提供约10倍的输出速度提升。相比Anthropic Claude Opus的API定价(输出25美元/百万tokens,约合170元/百万tokens),UltraSpeed在性价比上具有明显竞争力。小米团队强调,极致的推理速度将催生全新的使用场景和范式,例如实时法律合同审查、金融高频交易决策、超长文档即时分析等。目前,该模型已支持100万token超长上下文,进一步拓宽了应用边界。\n\nUltraSpeed在海外开发者社区也引发强烈反响,Hacker News和社交平台X上均有大量讨论。有开发者直言“8卡通用GPU节点跑出万亿MoE模型的1000 tokens/s,太疯狂了”,但也有用户对MoE架构下“万亿参数”的可比性提出质疑。从行业趋势看,小米的这一成果展示了通过软件和算法优化突破硬件瓶颈的可行路径,为AI推理效率树立了新标杆。对于开发者和企业用户而言,建议尽早申请体验,探索超高速推理在自身业务中的落地可能。随着小米延长开放时间,这一技术红利有望加速渗透至更多垂直领域。"
}