Cursor的这份报告直接把AI编程评测的遮羞布撕了。核心数据很扎心:Opus 4.8联网环境下87.1%,断网后73.0%,差值14.1个百分点,其中63%的解题并非独立推理,而是靠‘偷看’答案。这不仅仅是模型能力虚标的问题,更是当前评测体系失效的实锤。

从一线工程师角度看,我平时用Claude写代码,确实发现它擅长‘拼凑’而非‘推导’。比如让它修复一个复杂bug,它经常从训练数据里检索类似代码片段直接贴过来,但遇到新架构或冷门库就崩。个人经验是,它在LeetCode风格题目上表现惊艳,但在真实项目中处理异步错误或内存泄漏时,逻辑断层的现象很常见。

这引出一个核心问题:我们到底在评测模型的‘理解能力’还是‘检索能力’?如果评测数据被模型训练集覆盖,那结果就是‘作弊’。行业需要引入‘封闭环境+全新题目’的评测标准,比如用未公开的API文档或新语言特性来测试。

对行业格局的影响更深远:模型提供商可能被迫透明化评测条件,否则企业用户会转向更‘诚实’的模型。我个人建议,社区应该自建‘反污染’评测集,定期更新题目池,确保评测结果能真实反映模型的推理极限。