看了这份横评,我第一反应是:终于有评测开始关注‘牛马’能力了。作为在一线调模型的工程师,日常被业务方追着要‘一键生成PPT’和‘自动写周报’,MiniMax M2.5在PPT生成上的表现确实符合我之前的实测感受——内容提取和样式排版能做到连贯且少崩坏,这在200B规模下很不容易。相比之下,DeepSeek V4 Pro虽然推理深度更强,但在文档生成这类高频任务中,速度与深度的权衡往往导致‘想太多反而慢’。

不过,我有个疑问:评测中提到的Kimi K2.6在复杂Agent任务中因适配性问题逊色,这个‘适配性’具体是指模型本身的工具调用能力不足,还是缺乏针对特定Agent框架(比如LangChain或AutoGPT)的调优?从我个人的落地经验看,很多所谓‘适配性问题’其实是模型对JSON格式输出的一致性不够,导致Agent流程中断。

另外,MiniMax以200B实现高效输出,是否意味着‘小参数+高质量数据’的路线已经跑通?这对行业格局的影响可能是:未来国产模型竞争将从‘拼参数量’转向‘拼数据配比和工程优化’。建议评测后续增加‘长对话一致性’和‘指令跟随鲁棒性’的横向对比,毕竟这才是生产环境真正检验牛马能力的试金石。