小米大模型永久降价，最高降幅99%震撼业界

小米大模型迎来历史性时刻。5月27日，小米正式宣布MiMo-V2.5系列API永久降价，最高降幅高达99%，且不再区分上下文窗口长度。这一举措直接击穿了行业价格底线，让大模型服务的成本门槛大幅降低。对于AI开发者和企业用户而言，这意味着可以更经济地调用顶尖模型能力，加速产品落地和创新实验。具体来看，本次价格调整覆盖MiMo-V2.5全系列API，新定价全球同步生效。同时，Token Plan计费体系也进行了优化：在Agent或Code等高频场景下，可用Token数量提升至原来的5-8倍，真正做到加量不加价。计费规则更加清晰透明，开发者无需再为复杂的计费逻辑困扰。此外，所有当前有效的Token Plan用户额度将在5月27日0点全量重置，并按新规则执行，已过期用户也将在一周内获得惊喜福利。技术层面，此次降价并非简单的市场策略，而是建立在推理系统深度优化的基础上。小米技术团队基于SGLang HiCache完整支持Sliding Window Attention，将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降低至优化前的近1/7，可缓存Token数量提升至近5倍。同时，通过优化专家并行方案和输入长度分桶策略，显著提升了集群输入吞吐能力，从而在保障服务质量的前提下持续降低单位Token服务成本。这些技术突破让降价有了坚实的底气。回顾此前，小米通过MiMo Orbit、百万亿Token创造者激励计划等活动，已让大量开发者体验了MiMo模型。如今随着底层技术精进，小米选择将降价永久化，意在推动大模型从尝鲜走向规模化应用。对于开发者来说，现在是接入小米大模型的最佳时机：低成本、高能力、清晰的计费体系，加上持续的技术迭代，无疑将加速AI应用的普及。未来，小米还计划发布更详细的推理优化技术博客，值得关注。

小米大模型永久降价，最高降幅99%震撼业界

相关推荐

AI引爆漏洞洪灾，99%来不及修，安全人才告急

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

欧足联联手阿里云，AI重塑体育赛事新纪元

AI引爆漏洞洪灾，99%来不及修，安全人才告急

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你