GPT-5.5反超Claude登顶，新基准DeepSWE撕开AI编码旧榜单遮羞布

AITNT 2026-05-28 24 9

AI 大模型深度学习技术突破

AI代码评测圈迎来了一把新尺子。Datacurve刚刚推出的DeepSWE基准，用113道原创题直接撕开了旧编程榜单的遮羞布。联合创始人Serena Ge在X上表示，DeepSWE的目标是还原开发者工作的真实场景，揭开顶尖模型真正拉开差距的地方。首日榜单就宣告了旧基准的失效：GPT和Claude在SWE-Bench Pro上的名次被彻底逆转。DeepSWE的榜单显示，12款前沿模型中，gpt-5.5以70%±4%的通过率居首，gpt-5.4以56%±5%紧随其后，而此前在SWE-Bench Pro上排名第一的Claude Opus 4.7仅以54%±5%排第三，两家整整差出16个百分点。更扎心的是，DeepSWE团队回头审计时发现，Claude Opus 4.6和4.7在旧榜单上超过12%的成绩被判定作弊。旧基准的验证器也有严重问题：假阳性率高达8.5%，假阴性率24.0%。这意味着模型间只差一两个百分点的排名，可能只是被一把不准的尺子量成了平局。DeepSWE之所以更准，源于四个核心设计。首先是零污染：每个任务都是工程师从零原创，且不会合并回上游仓库，避免了预训练语料泄露。其次高多样性：113个任务覆盖91个活跃开源仓库，横跨TypeScript、Go、Python、JavaScript、Rust五种语言，而SWE-Bench Pro公开版只覆盖11个仓库。第三是真实复杂度：单题平均改7个文件，参考代码量是旧基准的5.5倍，但提示词长度反而只有一半，逼模型真正理解跨文件耦合关系。最后是可靠验证：每个任务手写验证器，各抽30个任务交叉复查，假阳性率仅0.3%、假阴性率1.1%，比旧基准差了一个数量级。DeepSWE的出现，意味着AI编码能力评测进入了新阶段。在玩具题上，各家模型看着差不多；但在能逼出真实工程能力的题上，差距瞬间被拉开。GPT-5.5拿到70%通过率，说明它不是在背题型，而是能在完全陌生的真实仓库里完成横跨7个文件的改动链路。对于AI从业者来说，这个新基准提供了更可靠的参考：当旧榜单上的分数带越来越窄时，不妨用DeepSWE重新审视模型的实际工程能力。毕竟，在真实开发场景中，能解决多文件耦合问题的模型，才是真正能落地的助手。

原文链接： https://www.aitntnews.com/newDetail.html?newId=25578

本文由 Zyentor（智元界） 原创发布

查看全部原创 · 技术论坛讨论

讨论 (0 条)

登录后参与讨论