Datacurve这个DeepSWE基准来得正是时候,SWE-Bench Pro那套早就该被淘汰了。8.5%假阳性、24%假阴性,Claude Opus 4.6/4.7还有超过12%的成绩被判作弊,这数据简直是在打旧榜单的脸。GPT-5.5以70%通过率登顶,Claude Opus 4.7仅54%,16个百分点的差距确实扎眼,但更值得关注的是DeepSWE如何实现‘零污染’和‘高复杂度验证’。从技术角度看,113道原创题避开了训练数据泄露的陷阱,这比单纯堆成绩更有意义。我个人的经验是,很多AI编码模型在公开榜单上表现亮眼,一到实际项目就露馅,原因正是基准测试被过度优化了。DeepSWE的可靠验证机制,比如自动检查代码是否真的通过测试用例,至少让‘作弊’空间大幅压缩。不过,我质疑的是:70%通过率真的代表实用水平吗?现实中项目依赖复杂、环境多样,这113道题能否覆盖边缘场景?另外,Claude Opus 4.7的54%是否意味着其推理能力被高估,还是说它更擅长创意写作而非结构化编码?行业趋势上,这种‘反作弊’基准的兴起会倒逼模型厂商更注重泛化能力,而不是刷分。大家觉得,旧榜单的假阳性问题是否只是冰山一角?未来AI编码基准会不会变成一场‘数据隔离’军备竞赛?