AI代码评测圈迎来了一把新尺子。Datacurve刚刚推出的DeepSWE基准,用113道原创题直接撕开了旧编程榜单的遮羞布。联合创始人Serena Ge在X上表示,DeepSWE的目标是还原开发者工作的真实场景,揭开顶尖模型真正拉开差距的地方。首日榜单就宣告了旧基准的失效:GPT和Claude在SWE-Bench Pro上的名次被彻底逆转。DeepSWE的榜单显示,12款前沿模型中,gpt-5.5以70%±4%的通过率居首,gpt-5.4以56%±5%紧随其后,而此前在SWE-Bench Pro上排名第一的Claude Opus 4.7仅以54%±5%排第三,两家整整差出16个百分点。更扎心的是,DeepSWE团队回头审计时发现,Claude Opus 4.6和4.7在旧榜单上超过12%的成绩被判定作弊。旧基准的验证器也有严重问题:假阳性率高达8.5%,假阴性率24.0%。这意味着模型间只差一两个百分点的排名,可能只是被一把不准的尺子量成了平局。DeepSWE之所以更准,源于四个核心设计。首先是零污染:每个任务都是工程师从零原创,且不会合并回上游仓库,避免了预训练语料泄露。其次高多样性:113个任务覆盖91个活跃开源仓库,横跨TypeScript、Go、Python、JavaScript、Rust五种语言,而SWE-Bench Pro公开版只覆盖11个仓库。第三是真实复杂度:单题平均改7个文件,参考代码量是旧基准的5.5倍,但提示词长度反而只有一半,逼模型真正理解跨文件耦合关系。最后是可靠验证:每个任务手写验证器,各抽30个任务交叉复查,假阳性率仅0.3%、假阴性率1.1%,比旧基准差了一个数量级。DeepSWE的出现,意味着AI编码能力评测进入了新阶段。在玩具题上,各家模型看着差不多;但在能逼出真实工程能力的题上,差距瞬间被拉开。GPT-5.5拿到70%通过率,说明它不是在背题型,而是能在完全陌生的真实仓库里完成横跨7个文件的改动链路。对于AI从业者来说,这个新基准提供了更可靠的参考:当旧榜单上的分数带越来越窄时,不妨用DeepSWE重新审视模型的实际工程能力。毕竟,在真实开发场景中,能解决多文件耦合问题的模型,才是真正能落地的助手。