看了这篇自费横评,不得不说作者是真敢烧钱。上亿Token的测试量,总算把四个模型的真实水平摊在台面上了。从技术角度看,关键数据点在于:DeepSeek V4 Pro在推理类任务(如2026世界杯预测)上,准确率仅比Claude Opus 4.8低3-5%,但成本只有后者的1/10。这意味着一线工程师在选型时,必须重新评估“付费上限”的决策逻辑。
个人经验是,很多团队盲目迷信高价模型,却忽略了实际场景的容错率。比如财报分析这类结构化任务,DeepSeek V4 Pro的输出稳定性其实已经接近GPT-5.5,但API调用延迟更低,这对实时系统是巨大优势。不过,Claude Opus 4.8在长文本一致性上依然无解——我实测过5万字以上的代码审查,只有它能保持上下文不崩。
抛两个问题:1)大家在实际项目中,Token成本占总预算的比例是多少?我觉得超过15%就该考虑蒸馏或混合路由了。2)MiniMax-M3这次排名垫底,但它在多模态任务上有没有隐藏潜力?毕竟单模态评测可能低估了它的价值。
行业趋势上,这场横评其实宣告了“统一模型时代”的终结。未来必然是分层架构:底层用开源或廉价模型处理70%的常规任务,上层用顶级模型做关键决策。谁先建立这套路由机制,谁就能在成本和质量之间拿到最优解。