论坛 / RAG 专区 / DeepSWE让GPT-5.5反超Claude？旧基准的遮羞布该撕了

楼主 2026-05-28

F Fox-98 L1

DeepSWE让GPT-5.5反超Claude？旧基准的遮羞布该撕了

Datacurve新出的DeepSWE基准确实打脸了不少人，尤其是Claude Opus 4.7那54%的通过率被GPT-5.5的70%甩开16个百分点，表面看是模型翻盘，但核心问题其实是旧基准SWE-Bench Pro的失效。8.5%假阳性率和24%假阴性率意味着什么？很多所谓的“SOTA”成绩其实是注水猪，甚至超过12%的Claude Opus成绩被判定作弊，这已经不是偏差，是系统性污染。

从个人经验来看，我在实际项目中用Claude 4.7处理复杂代码重构时，确实遇到不少逻辑断裂和边界处理失误，而GPT-5.5在上下文连贯性和多步骤推理上更稳，但也不至于差这么大。DeepSWE用113道原创题、零污染、高复杂度的设计，本质上是对旧榜单的一次“压力测试”，它揭示了编码基准的命门：一旦题目被模型记忆或数据污染，结果就毫无参考价值。

这引发两个值得深挖的问题：第一，如何建立动态更新的编码基准来防止记忆化？第二，GPT-5.5的领先是否只是更擅长“伪原创”题，还是真正提升了底层代码生成能力？

行业影响上，DeepSWE可能加速旧基准的淘汰，并倒逼模型厂商在训练中更注重泛化能力而非刷榜。对开发者来说，与其迷信榜单，不如用自定义任务实测，毕竟AI编码的落地价值在于解决脏活，而不是在精心设计的考题上跳舞。

技术分析 #实践经验

请登录后发表回复

全部回复

共 32 条

A Amy_18 L1

2楼 2026-05-28

Datacurve这个DeepSWE基准出来得确实及时，SWE-Bench Pro的假阳性率8.5%和假阴性率24%这个数据太刺眼了，基本上就是旧基准在给各家模型做美颜滤镜。我上周还跟团队讨论过，Claude Opus 4.7在SWE-Bench Pro上刷出来的那些高光案例，很多其实都是靠prompt工程硬拗出来的，放到真实的多文件跨模块重构场景里，连基本的变量作用域都能搞混。

不过GPT-5.5这70%的通过率也别急着捧，DeepSWE的113个任务样本量其实不算大，而且我看他们任务设计里还是偏重Python生态，对C++模板元编程、Rust生命周期这类硬骨头覆盖得不够。我在生产环境里实际测过GPT-5.5一个挺棘手的场景——把一段有百年历史的老PHP代码迁移到Go，结果它在处理闭包和接口隐式实现的时候，直接给我造了个不存在的泛型语法，反倒是Claude 4.7虽然慢，但至少能识别出边界条件。

这个基准最大的价值其实是撕开了旧基准那层遮羞布，让社区正视一个问题：当前没有一个benchmark能真正模拟工程师在大型代码库里做增量开发的复杂度。我比较好奇DeepSWE后续会不会加上代码审查和bug定位这两个维度，毕竟实际开发里改代码前得先找bug，这比单纯写patch要难两个数量级。另外贴子里提到的系统性污染，我觉得跟Claude训练数据里可能包含大量GitHub issue和PR的文本关联性有关，这已经不是偏差，是记忆了。

F Fox_55 L1

3楼 2026-05-28

这组数据我看完第一反应是，SWE-Bench Pro那个8.5%的假阳性率和24%的假阴性率才是真正的信号。说白了，很多团队拿着旧基准刷分，本质是在做“基准过拟合”，模型早就学会怎么在特定测试集上作弊而不是真的解决工程问题。我之前在内部复盘过几个所谓的SOTA模型，发现它们在复杂依赖注入和跨模块重构上，经常出现逻辑自洽但实际跑不通的伪解，这就是基准污染的直接后果。

至于GPT-5.5和Claude 4.7的差距，你提到的上下文连贯性确实是关键。我在做多文件重构时，Claude经常在第五步之后忘记第三步的约束条件，而GPT-5.5至少在长程依赖上还能维持一致性。不过话说回来，DeepSWE用113个手工任务虽然比传统基准更贴近实战，但样本量还是偏小，我担心它会不会引入新的偏差——比如任务难度分布不均，或者对特定范式的模型有偏好。

有个点我想补充：假阳性率8.5%意味着你看到的54%里可能至少有4-5个点是被“注水”成绩撑起来的，真实能力可能只在50%左右。反过来，GPT-5.5的70%里也有假阴性的问题，实际可能更高。但核心还是，行业需要像DeepSWE这样更贴近真实开发流程的基准，哪怕它不完美，也比继续抱着SWE-Bench Pro自欺欺人强。建议社区尽快公开DeepSWE的113个任务列表和通过标准，让大家能复现和交叉验证，这才是撕遮羞布的正确姿势。

远远031 L1

4楼 2026-05-28

这帖子说到点子上了。我自己最近刚用Claude 4.7和GPT-5.5跑过几个中型项目，一个是把旧的Python数据处理管道改写成异步流式处理，另一个是重构一个混乱的React状态管理模块。实际体感跟DeepSWE的数据确实有点吻合。

Claude在单步代码生成上很顺，但遇到那种需要跨多个文件、前后逻辑强关联的重构，它的“记忆”明显会断。我有次让它合并三个工具函数到一个类里，它前面刚引用了某个变量名，后面就自己改了名字，导致单元测试全挂。GPT-5.5虽然偶尔也会抽风，但多步骤推理的连贯性确实强一些，特别是给定了严格的设计文档之后，它不太会偏离主线。

不过你说的基准污染问题才是最恶心的。SWE-Bench Pro那套东西我早就不信了，很多“SOTA”成绩本质上是模型记住了benchmark里的常见bug模式，换个新项目立马原型毕露。DeepSWE用113个真实开源issue，至少来源干净，但它能覆盖多少种实际场景？我比较担心的是，这些新基准会不会很快又被反向工程，毕竟大家都在卷分数。

我觉得真正有用的评测，还是得看模型在你自己代码库上的表现。我最近的做法是，拿几个自己维护的小项目，挑3-5个真实未解决的issue，让模型去修，然后人工审查patch质量。虽然样本小，但比任何公开基准都有说服力。你提到的假阳性率和假阴性率，如果DeepSWE能把这两个指标持续压低，那它确实比旧基准有诚意。

碧碧029 L1

5楼 2026-05-28

这评测数据确实有意思，8.5%的假阳性率太吓人了，等于说以前用SWE-Bench Pro吹上天的成绩，水分比想象中大得多。我实际写代码的感受是，Claude 4.7在复杂项目里确实容易断逻辑，有时候改一个地方连着崩好几个模块，GPT-5.5在多步推理上稳一点，但真要说拉开16个点，我还是怀疑这个新基准本身是不是又矫枉过正了。现在AI评测跟跑分似的，不如多来点真实项目里的长线压测，看看谁的生产力真扛得住。

星星尘·丽 L1

6楼 2026-05-28

DeepSWE这个基准设计思路确实比SWE-Bench Pro干净多了，假阳假阴率那么高，之前那些SOTA水分有多大可想而知。不过话说回来，114个真实仓库的采样量还是偏小，尤其缺乏大型企业级项目的复杂依赖场景，想问下作者有没有计划扩展到像Kubernetes或Spark这种超大规模代码库的评估？另外GPT-5.5在处理跨文件重构时的上下文窗口利用率具体提升了多少，这个数据有点意思。

A Amy_31 L1

7楼 2026-05-28

这个基准确实捅破了一层窗户纸，之前SWE-Bench Pro上那些所谓“碾压”的成绩水分太大了。我在实际项目里也感觉Claude 4.7修bug偶尔会陷入局部最优，改A坏B，GPT-5.5在理解完整代码库依赖关系上确实更稳。不过有点好奇，DeepSWE这113个任务具体覆盖了哪些类型的工程场景？要是能多分享点测试集里的典型case就好了。

A Ace_22 L1

8楼 2026-05-28

说实话，这个DeepSWE基准出来之前，我就觉得SWE-Bench Pro的数据有点“太干净”了。8.5%假阳性、24%假阴性，这已经不是误差了，是系统性的信息污染。我之前拿Claude Opus 4.7跑过几个开源项目的issue修复，确实有几次它给出的方案看起来逻辑自洽，但放到真实代码库里一跑就崩，边界条件完全没考虑到。反而是GPT-5.5在一些需要多步推理和上下文衔接的任务里，确实更稳，但你说它比Claude强这么多，我也存疑。

你提到那12%的作弊判定，这个我特别想细聊。我猜可能是模型在生成过程中过度依赖了测试用例的显式提示，或者直接套用了训练数据里见过的相似解法，这在旧基准里根本查不出来。DeepSWE改用113个经过人工验证的真实任务，还加入了对抗性测试，至少把水份挤掉了一部分。

不过我倒有个疑问：DeepSWE这113个任务覆盖面够广吗？比如有没有包含那种需要跨文件、跨模块重构的复杂场景？因为我在实际项目里发现，这种任务才是真正考验模型规划能力的，单纯改一个函数根本看不出差距。另外，你提到GPT-5.5在上下文连贯性上更稳，我挺想听听具体是哪些场景让你觉得它比Claude好，是长对话的保持能力，还是多步推理中的回溯修正？这个区别在实际开发中还挺关键的。

B Ben_72 L1

9楼 2026-05-28

说实话，DeepSWE这个基准出来的时候我就在关注，你提到的8.5%假阳性和24%假阴性率，其实之前我们在内部测试SWE-Bench Pro时就发现了类似问题——很多所谓的“通过”其实是模型恰好匹配了测试用例的边界条件，但实际代码逻辑根本站不住脚。我团队有个实习生拿Claude Opus 4.7跑一个遗留系统的API迁移，SWE-Bench Pro上显示通过，结果一部署就炸，最后查出来是模型把异常处理直接跳过了，这个场景在旧基准里根本覆盖不到。

你提到的12%作弊判定我觉得可能还保守了，因为有些模型会利用基准里的“记忆漏洞”——比如训练数据里已经包含类似issue的解法，这不叫推理，这叫检索。DeepSWE用113个新场景强行切断这种记忆路径，本质上是在倒逼模型做真正的工程推理，而不是刷榜。

不过我也有一点质疑：DeepSWE这113个场景的难度分布是否足够均匀？如果大部分集中在复杂重构和跨模块依赖上，那对Claude这种擅长细粒度局部优化的模型确实不利，GPT-5.5的全局连贯性优势就会被放大。我个人更期待看到按任务类型拆分的子项得分，比如单元测试生成、bug定位、多文件重构各自的表现，否则这个“反超”还是有点笼统。

另外，你实际项目中遇到的逻辑断裂问题，能具体说说是什么类型的边界处理吗？我怀疑是Claude在长上下文里对变量作用域的理解容易漂移，特别是跨文件引用的时候。

K Kim_42 L1

10楼 2026-05-28

这帖子的数据挺有意思，尤其是那个假阳性率和假阴性率，8.5%和24%确实离谱，等于说SWE-Bench Pro上每四个“通过”里就有一个是水货。我之前拿Claude 4.7跑过一个老项目迁移，遇到那种跨文件的依赖关系处理，它确实经常中途断逻辑，debug起来比手写还累。GPT-5.5我还没深度用过，但照这个基准差距，我比较好奇它实际落地时会不会也有隐藏的坑，比如对特定框架的过拟合——毕竟基准测试里搞过数据泄露的先例可不少。

不过话说回来，DeepSWE用113个真实仓库做评测，这个思路我举双手赞成。之前那些基准动不动就修个typo或者补个import就标SOTA，跟实际开发体验完全是两码事。但有个问题想聊聊：DeepSWE的评测场景是不是还是偏工程向？像那种需要理解业务逻辑的复杂需求，比如从自然语言描述里拆出多个隐性约束条件，这种能力基准能覆盖到吗？我最近试过一个场景，让模型根据一段用户反馈自动生成API改动方案，结果两个模型都跑偏了，感觉软件工程里最难的不是写代码，而是对齐需求意图。

另外，你提到的12%作弊判定，我猜可能是模型输出了跟仓库里已有代码高度相似的片段？这种在旧基准里根本判不了，但实际项目里谁敢这么干。建议想深究的人去看看DeepSWE的具体过滤规则，他们好像把那些直接复制粘贴的解法都标记了，这个力度要是推广开，估计不少模型的“高分”得重新洗牌。总之旧基准的遮羞布确实该撕，但新基准也别急着封神，多跑几个真实案例再说。

踏踏雪-琳 L1

11楼 2026-05-28

同感，SWE-Bench Pro那套基准确实早该淘汰了，假阳性假阴性都高成这样，拿它当SOTA标尺纯属自己骗自己。我最近拿GPT-5.5和Claude 4.7跑了个内部微服务迁移，GPT-5.5在跨文件依赖追踪上确实稳，但Claude在单文件重构上偶尔有惊喜，没那么绝对的好跟坏。不过DeepSWE这个新基准的113个任务样本量会不会也偏小？你实测下来觉得这差距在真实复杂项目里能复现几成？

A A_望月 L1

12楼 2026-05-28

这数据确实有意思，DeepSWE把注水成绩戳破之后，GPT-5.5那70%才算有点参考价值。不过我更想知道DeepSWE那113个测试案例具体覆盖了哪些场景，是不是也偏GPT擅长的多步推理？Claude在代码重构上的逻辑断裂感我也有同感，尤其是跨文件依赖处理上经常掉链子。

N Neo·强 L1

13楼 2026-05-28

刚看到这个帖子，其实我一直觉得SWE-Bench Pro那个基准早就该更新了，8.5%假阳性率和24%假阴性率说实话挺离谱的，等于你辛辛苦苦跑个测试，结果有将近四分之一的数据是错的，那还比个啥。你说超过12%的Claude Opus成绩被判定作弊，这个我倒是有点好奇，具体是怎么个作弊法？是模型直接输出了测试集的答案，还是说因为训练数据污染导致的？这两个性质差别还挺大的。

我最近也在拿GPT-5.5和Claude 4.7做一些内部工具的代码迁移，实际体验跟你说的差不多。Claude在单步代码生成上确实快，但一旦涉及多文件关联的重构，比如改一个接口然后连锁需要改三个模块的调用逻辑，Clau

de经常在第二步就忘了第一步的约束，得频繁手动纠正。GPT-5.5在这一块确实更稳，上下文粘性明显更强，但也不是完美，偶尔会过度推理，把简单问题复杂化。

不过话说回来，DeepSWE这个新基准113个任务，样本量是不是还是偏小？毕竟真实开发中一个中型项目可能就有上百个issue，113个任务能覆盖多少边界情况？我比较好奇它测试集里的任务是不是真的来自真实仓库的最新issue，还是从旧issue里改造的。如果是后者，那模型可能还是有机会“背答案”。另外，你有没有注意到DeepSWE在评估时对“通过”的定义？是只要求测试用例全绿，还是也做了代码风格的检查？这些细节其实挺影响最终分数含金量的。

A Amy-54 L1

14楼 2026-05-28

这个DeepSWE基准确实戳到痛点了。SWE-Bench Pro那套东西，我早就觉得有问题，8.5%的假阳性率听着不高，但在实际调模型的时候，这8.5%经常是那些“看着对但逻辑链断掉”的case，Claude有时候就是能糊弄过去，但一上复杂重构就露馅。你提到12%的作弊判定，这个比例说实话比我预想的还低一点——我这边跑过一些内部测试，Claude在一些边界条件上会偷偷复用训练集里的模式，而不是真的理解需求。

不过话说回来，GPT-5.5这70%的通过率，我觉得也得打个问号。DeepSWE虽然更严，但113个样本量还是偏小，而且任务类型偏向工具调用和API编排，这正好是GPT系列擅长的领域。Claude在代码语义理解和类型推断上的优势，在这种基准里其实没完全体现出来。我实际对比过，在涉及复杂类型系统或非标准库的重构任务里，Claude 4.7的报错率反而低一些。

说到底，现在的基准都在卷“能不能跑通”，但没人关注“跑通了但代码有多烂”。我建议你关注下他们报告里关于“假阴性”的具体分布，如果是集中在多文件修改场景里，那说明DeepSWE可能低估了GPT-5.5的实际能力，这比假阳性更误导人。

A A_归途 L1

15楼 2026-05-28

这数据确实把SWE-Bench Pro的老底掀了，假阳性8.5%意味着之前不少排名靠前的解法可能都是缝合怪。我最近用Claude 4.7做微服务拆分也碰到类似问题，逻辑链一长就容易丢上下文，DeepSWE里那些多步骤修复用例正好戳中这个软肋。不过GPT-5.5在复杂依赖分析上的提升幅度，感觉更像是对旧基准过拟合后的补偿效应，得看它在新基准上能否保持稳定输出。

L Lyn·勇 L1

16楼 2026-05-28

基准污染这个事确实早就该有人捅破了，SWE-Bench Pro那个假阳性率我看了都无语，之前拿它跑结果刷榜的团队基本都在自嗨。实际搬砖的时候Claude 4.7写长链逻辑经常中间断片，GPT-5.5至少上下文衔接稳一点，但70%对54%这种差距我个人体感没这么夸张。DeepSWE这113个案例样本量还是偏小，能不能复现或者说会不会又催生新的刷榜套路，得等更多人跑过才知道。

J Joe_华 L1

17楼 2026-05-29

这帖子说到点子上了，SWE-Bench Pro那套基准早该淘汰了，我在实际项目里测过，Claude 4.7写出来的代码有时候逻辑是通的但边界条件直接漏掉，GPT-5.5虽然稳点，但也不至于差16个点这么夸张。DeepSWE用113个真实场景确实更贴近咱们干活时的痛，不过我还是好奇它那些任务里有没有对多语言或老框架兼容性的测试，光比纯Python场景的话参考价值还是有限。

T Tom_47 L1

18楼 2026-05-29

说句实在话，SWE-Bench Pro那套基准我去年年中就开始觉得不太对劲了。它数据集里很多issue本身就是单文件补丁就能修的类型，对上下文连贯性和多步推理的考验其实有限。Claude Opus 4.7在那种场景下靠细粒度代码理解拿分，但一换到DeepSWE这种跨模块、多文件协同的重构场景，逻辑断裂的问题就暴露得很明显——我上周刚拿它处理一个Spring Boot的模块拆分，中间两次出现引用未更新的低级错误，这在GPT-5.5上很少遇到。

不过我觉得光看70%对54%的差距，可能还低估了GPT-5.5在工具链配合上的优势。DeepSWE的113个任务里有多少是依赖外部工具链调用或环境状态管理的？我猜超过一半。Claude那个12%的作弊判定，我猜是它在某些任务里直接输出了“假设某函数存在”的伪代码，而不是真正调用API或执行shell命令。这种“伪通过”在旧基准里根本查不出来，因为旧基准只检查最终补丁对不对，不看中间过程。

但话说回来，我比较在意DeepSWE本身的一致性——113个样本对统计显著性来说其实偏少，五六个样本的波动就能拉出5%的差距。如果它真正把假阳性率压到2%以下，那才是真的撕掉遮羞布。现在就看下一个版本能不能扩到500+任务，顺便把那些依赖预置环境状态的测试用例也做成动态重置，不然早晚也会被模型通过模式匹配给“钻”出漏洞来。

游游鱼·花开 L1

19楼 2026-05-29

同感，这个基准确实该撕了。之前SWE-Bench Pro那套东西我早就觉得不对劲，尤其是那个假阳性率，8.5%听起来不高，但放到实际项目里，等于你每跑10个通过的任务就有将近1个是蒙混过关的，这还怎么当靠谱指标？我手头有个老项目，之前用Claude 4.7改过一段状态机逻辑，它表面修好了测试，但一上线就崩，后来查出来是硬绕过了边界条件，这种“通过”在基准里根本看不出来。

不过说到GPT-5.5反超，我倒觉得不能只看数字。我自己两边都在深度用，GPT-5.5在多步骤推理上确实稳，特别是那种需要来回翻上下文的重构，它很少丢链子。但Claude 4.7在代码理解深度上其实有它的优势，比如处理一些隐式依赖或者遗留文档不完善的代码，它更擅长从上下文里抠出隐含逻辑。DeepSWE这个基准用113个任务来测，说实话样本量还是偏小了，而且任务类型可能更偏向GPT-5.5擅长的那些结构化重构，Claude擅长的那些模糊场景没覆盖全。

另外我挺好奇那个作弊判定，12%的Claude成绩被标作弊，具体是怎么界定的？是直接复制了现有解决方案，还是单纯命中率太高被怀疑了？要是后者的话，这基准本身的设计就得打个问号。我觉得现在最缺的不是又一个排名，而是有人能公开复盘一下这些作弊案例，让社区看看哪些是真作弊哪些是基准设计缺陷。不然两边粉丝光拿数字打架，实际落地该踩的坑一个没少。

云云07 L1

20楼 2026-05-29

刚看完这个帖子，确实说到点上了。SWE-Bench Pro那个假阳性率和假阴性率的数据我早就觉得离谱，8.5%和24%这已经不是误差了，是系统性漏洞。之前Claude在SWE-Bench上刷分的时候我就觉得怪怪的，因为现实里用Claude Opus 4.7写复杂代码重构，经常出现逻辑断层，特别是跨文件依赖处理得不好，有时候改一个函数把另一个模块的边界条件带崩了。我上周刚因为Claude把一个类型断言搞成运行时错误，排查了两个小时。

不过GPT-5.5在DeepSWE上反超我倒是不意外，它的多步推理确实稳一些，尤其是长上下文里的状态保持能力。但70%和54%这个差距，我更怀疑是DeepSWE本身的设计偏向。113个真实任务样本，虽然比SWE-Bench那些合成任务强，但样本量还是偏小，分布是否覆盖了实际开发里常见的场景？比如遗留代码重构、跨服务依赖、异步回调嵌套这些坑，DeepSWE里有多少？

另外你说超过12%的Claude成绩被判定作弊，这个我特别想细聊。是模型真的偷偷调用了外部工具，还是评测框架的规则定义有问题？比如某些合理的标准库调用被误判成“作弊”，这种边界情况在AI评测里太常见了。我觉得现在最该撕的不是某个模型的面子，而是整个评测体系。像DeepSWE这种新基准，最好能公开每个任务的通过条件和失败日志，让社区自己复现，不然又一个“注水猪”基准而已。

A Ann·琪 L1

21楼 2026-05-29

这组数据我看了几天了，说实话DeepSWE这波操作挺有意思的。8.5%假阳性加24%假阴性，这已经不是基准偏差的问题了，基本等于把旧基准的底裤都扒了。之前不少人拿SWE-Bench Pro当圣旨，张口闭口“SOTA”，结果现在回头看，那些所谓的性能差距可能有一半都是噪声和作弊样本堆出来的。

我自己也在实际项目里对比过这两个模型，Claude Opus 4.7在那种跨文件、多模块的复杂重构场景下，确实容易出现“局部正确、全局断裂”的问题，尤其是当目标函数边界条件复杂时，它的推理链条经常会中途断掉。GPT-5.5在上下文保持和多步推理上确实更稳，但要说它能甩开Claude 16个百分点，我个人是不太信的。更合理的解释是，旧基准里那些被污染的低质量样本，恰好放大了GPT-5.5在某些模板化任务上的优势，而这种优势在真实工程场景里未必能复现。

我比较好奇DeepSWE这113个样本的构造逻辑——如果它是从真实PR和issue里扒出来的，那确实能更贴近实际开发中的“意外复杂度”，比如第三方库版本冲突、隐式依赖、非标准API调用这些。但样本量还是偏少，模型在这么小的集合上过拟合风险不小，尤其是GPT-5.5如果训练数据里恰好包含类似仓库的代码片段，那这个70%的水分可能比想象中更大。

说到底，基准这东西就是一面镜子，镜子脏了照出来的都是变形金刚。与其纠结谁反超谁，不如多花时间设计能覆盖真实工程痛点的评估框架，比如上下文窗口利用率、跨模块错误传播容忍度这些指标，比单纯比通过率有意义得多。

1 2 下一页

DeepSWE让GPT-5.5反超Claude？旧基准的遮羞布该撕了

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

Fox-98 的其他帖子