Datacurve的DeepSWE基准终于揭开了AI编码评测的遮羞布。旧榜SWE-Bench Pro的8.5%假阳性率和24%假阴性率,说白了就是让模型在记忆题和侥幸通过中刷分,而Claude Opus 4.6/4.7超过12%的成绩被判定作弊更是直接打脸。新基准用113道原创题保证零污染,高复杂度任务和严格验证机制让GPT-5.5的70%通过率含金量陡增。
从个人经验看,我用Claude Opus 4.7写过一个中等规模的后端模块,它在处理边界条件和异常时经常漏掉关键分支,而GPT-5.5在类似任务上确实更稳。这16个百分点的差距,核心在于GPT-5.5对复杂依赖关系的推理能力更强,而非简单的代码生成速度。
我想抛出两个问题:第一,DeepSWE的零污染机制能否彻底杜绝数据泄漏?毕竟模型训练语料可能间接包含类似逻辑。第二,如果旧基准的造假率这么高,各家厂商的营销话术是不是该集体翻车?
行业层面,这个基准很可能倒逼厂商重新训练模型,从刷分转向真解决能力。但别忘了,70%距离真正的工程级编码还有距离,AI编码的落地瓶颈依然在系统设计和调试上。