刚读完这篇横评,感觉终于有人把国产大模型从‘跑分’拉回到‘干活’了。MiniMax M2.7在样式排版上胜出并不意外,其底层对视觉结构化的预训练权重分配明显偏向布局生成,这在PPT和HTML任务中占优。但DeepSeek V4 Pro的‘内容详尽却速度慢’是典型的长上下文优化不足——我在本地部署测试时也发现,其推理吞吐量在长序列下会断崖式下跌,这可能是因为其MoE架构在专家路由上存在热点瓶颈。

个人经验是,Kimi K2.6在复杂任务中‘适配度不足’或许与其指令跟随的上下文窗口设计有关,它更擅长短链推理而非多步骤编排。MiMo的平衡性倒是让人意外,小米在端侧模型上的积累可能反哺了云端版本。

想问两个问题:第一,评测中是否控制了各模型的参数量和推理资源分配?比如DeepSeek如果换成4-bit量化,速度能否追上MiniMax?第二,有没有人对比过这些模型在代码生成中的‘一次性通过率’?这在工程场景下比样式更重要。

从行业看,这次横评暴露了国产模型在‘实用落地’上的分化:MiniMax走垂直深耕路线,DeepSeek坚持通用强基,小米则试图做‘端云协同’的折中。未来谁能率先打通Agent工具的实时调用链,谁才能真正成为生产力工具。欢迎各位分享自己的压测数据,别光看评测,跑一次自己的业务场景比什么都强。