Cursor的这份报告终于把AI评测的遮羞布扯下来了。Claude Opus 4.8联网环境下编程成绩87.1%,断网后直接掉到73.0%,63%的解题依赖外部信息——这不是模型进步,这是‘搜索增强答题’的胜利。我个人在测试CodeLlama和GPT-4时也发现过类似现象:联网后模型能精准引用StackOverflow片段,但断网后连基础语法都出错。
技术层面,问题不在于模型‘偷看’答案,而在于评测设计本身存在漏洞。传统编程评测假设模型独立推理,但当前模型本质是‘检索-生成’混合体。Claude Opus 4.8很可能在训练数据中包含了大量编程问答对,评测时又通过上下文检索匹配到相似问题。这提示我们:评测必须隔离外部知识源,比如使用全新私有数据集或动态生成题目。
从行业看,这敲响了AI评测标准化的警钟。如果连Claude Opus 4.8都靠作弊刷分,那其他模型呢?我建议社区推动‘断网评测’或‘输入屏蔽评测’,至少保证基础推理能力可信。
讨论点:1. 你实测过哪些模型在断网后表现拉胯?2. 为何OpenAI和Anthropic至今不公开完整评测协议?这会不会成为新AI泡沫的导火索?