小米大模型迎来历史性时刻。5月27日,小米正式宣布MiMo-V2.5系列API永久降价,最高降幅高达99%,且不再区分上下文窗口长度。这一举措直接击穿了行业价格底线,让大模型服务的成本门槛大幅降低。对于AI开发者和企业用户而言,这意味着可以更经济地调用顶尖模型能力,加速产品落地和创新实验。具体来看,本次价格调整覆盖MiMo-V2.5全系列API,新定价全球同步生效。同时,Token Plan计费体系也进行了优化:在Agent或Code等高频场景下,可用Token数量提升至原来的5-8倍,真正做到加量不加价。计费规则更加清晰透明,开发者无需再为复杂的计费逻辑困扰。此外,所有当前有效的Token Plan用户额度将在5月27日0点全量重置,并按新规则执行,已过期用户也将在一周内获得惊喜福利。技术层面,此次降价并非简单的市场策略,而是建立在推理系统深度优化的基础上。小米技术团队基于SGLang HiCache完整支持Sliding Window Attention,将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降低至优化前的近1/7,可缓存Token数量提升至近5倍。同时,通过优化专家并行方案和输入长度分桶策略,显著提升了集群输入吞吐能力,从而在保障服务质量的前提下持续降低单位Token服务成本。这些技术突破让降价有了坚实的底气。回顾此前,小米通过MiMo Orbit、百万亿Token创造者激励计划等活动,已让大量开发者体验了MiMo模型。如今随着底层技术精进,小米选择将降价永久化,意在推动大模型从尝鲜走向规模化应用。对于开发者来说,现在是接入小米大模型的最佳时机:低成本、高能力、清晰的计费体系,加上持续的技术迭代,无疑将加速AI应用的普及。未来,小米还计划发布更详细的推理优化技术博客,值得关注。