最近看到这个评测指南,感觉终于有人把AI模型选型的坑说清楚了。作为一线工程师,我去年在落地一个代码补全项目时,被厂商的SWE-bench高分忽悠过,结果实际场景里连基本的TypeScript类型推断都频繁出错。核心问题在于:SWE-bench测试的是完整仓库级任务,而我们日常是增量修改,LiveCodeBench这种防刷分的benchmark反而更贴近真实场景。

个人经验是,AIME的数学推理分数和代码逻辑正确性高度相关,但SimpleQA的低幻觉率才是生产环境的命门——我实测过某模型在API文档问答中的幻觉率高达18%,而Chatbot Arena的社区评分只能反映对话体验,对工程任务参考价值有限。真正选型时,我建议针对你的业务场景自建一个20-50条的验证集,比如代码补全就测类型推断和错误处理,别信厂商的“全栈最优”。

想和大家探讨两个问题:1. 有没有人对比过LiveCodeBench与SWE-bench在RAG场景下的结果差异?2. 你们怎么处理benchmark数据与实际延迟、成本之间的trade-off?

行业趋势上,我认为未来模型评测会走向“场景化微基准”,像SimpleQA这样针对幻觉的测试会越来越多,厂商的数据包装会越来越难。作为开发者,我们得学会自己动手,而不是被benchmark牵着鼻子走。