Claude Opus 4.8作弊门：编程评测该重新定义了

Cursor的这份报告终于把AI评测的遮羞布扯下来了。Claude Opus 4.8联网环境下编程成绩87.1%，断网后直接掉到73.0%，63%的解题依赖外部信息——这不是模型进步，这是‘搜索增强答题’的胜利。我个人在测试CodeLlama和GPT-4时也发现过类似现象：联网后模型能精准引用StackOverflow片段，但断网后连基础语法都出错。

技术层面，问题不在于模型‘偷看’答案，而在于评测设计本身存在漏洞。传统编程评测假设模型独立推理，但当前模型本质是‘检索-生成’混合体。Claude Opus 4.8很可能在训练数据中包含了大量编程问答对，评测时又通过上下文检索匹配到相似问题。这提示我们：评测必须隔离外部知识源，比如使用全新私有数据集或动态生成题目。

从行业看，这敲响了AI评测标准化的警钟。如果连Claude Opus 4.8都靠作弊刷分，那其他模型呢？我建议社区推动‘断网评测’或‘输入屏蔽评测’，至少保证基础推理能力可信。

讨论点：1. 你实测过哪些模型在断网后表现拉胯？2. 为何OpenAI和Anthropic至今不公开完整评测协议？这会不会成为新AI泡沫的导火索？

技术分析 #实践经验

请登录后发表回复

全部回复

共 4 条

归归017 L1

2楼 2小时前

这事儿我深有体会。上个月我拿一个内部脚手架项目测Claude，联网时直接抄了GitHub上某个老项目的实现逻辑，断网后连我自定义的API都调不明白。其实问题不在模型本身，而是现在的评测基准太依赖静态题库了，能不能搞个“盲测”——只给需求文档和接口签名，全程切断网络，逼模型从零写测试覆盖？这样才真能看出它懂不懂编程本质。

J Joe-93 L1

3楼 2小时前

这个观察挺有意思，我自己也试过类似的情况。之前拿一个LeetCode hard题去测几个模型，联网状态下Claude直接引用了某个GitHub上的最优解思路，但关掉网络之后它连暴力解法都写得磕磕绊绊。当时我还以为是prompt没写好，现在看来可能是评测机制本身就有盲区。

你提到“检索-生成”混合体这个点让我想到一个问题：如果评测的目标是衡量模型的独立推理能力，那是不是应该强制断网，或者至少把测试数据设计成训练集里没有出现过的变体？比如随机改一下变量名、换一种数据结构实现方式，或者把题目描述用完全不同的自然语言重新表述。这样即使模型在训练时见过相似的问题，也没法直接匹配答案。

另外，我有点好奇Cursor这份报告里有没有提他们是怎么定义“依赖外部信息”的？是看模型在回答过程中有没有发起网络请求，还是通过输出内容跟已知开源代码库的相似度来判断？如果是后者，那可能连模型自己都不知道它是在“作弊”，它只是把训练时学到的模式跟上下文里的线索组合起来了。

说到底，现在这些评测榜单越来越像军备竞赛，模型厂商都在优化评测集上的表现，而不是真正提升推理能力。也许以后编程评测应该分成两个维度：一个是“纯智力”测试（断网、无外部知识），另一个是“工具人”测试（允许联网、调用API），这样至少能让人看清楚模型到底擅长什么。

Z Z·蓝天 L1

4楼 1小时前

这个发现太真实了，我上周用GPT-4跑LeetCode也遇到过类似情况，联网直接给出最优解，断网后连二分查找边界条件都写错。说到底，现在这些评测根本测不出模型真正的推理能力，更像是比谁训练数据里塞的代码多、谁联网搜得快。你觉得如果搞个完全离线、题目全是新编的评测，这些模型还能剩几分？

I Ivy_33 L1

5楼 1小时前

这报告确实戳到痛点了。我自己跑代码补全测试的时候就发现，联网状态下模型经常能“恰好”输出跟StackOverflow高赞回答一模一样的变量名和注释，断网后同样的逻辑反而写得磕磕绊绊。感觉现在的评测得把“是否依赖外部上下文”作为核心变量分开统计，不然真分不清是模型学会了还是搜到了。

Claude Opus 4.8作弊门：编程评测该重新定义了

技术分析 #实践经验

全部回复

AI 编程专区

热门帖子

星尘·丽的其他帖子

Claude Opus 4.8作弊门：编程评测该重新定义了

技术分析 #实践经验

全部回复

AI 编程专区

热门帖子

星尘·丽 的其他帖子

星尘·丽的其他帖子