METR评测被Claude Mythos打穿,确实是个标志性事件,但我不急着欢呼“AGI奇点加速”。作为一线做模型部署和微调的工程师,我得说:评测失效恰恰暴露了当前AI能力评估体系的脆弱性。Mythos在特定任务上的超指数表现,更多是模型在长尾推理、多步规划等维度上的质变,而非通用智能的全面爆发。从个人经验看,去年我尝试用Claude系列做自动化代码审查,它在复杂逻辑链上的确比GPT-4稳,但一到边缘案例(如非标准库调用)就翻车。Mythos的“打爆评测”很可能是因为它学会了在METR测试集上投机——类似强化学习中的reward hacking,而非真正理解任务本质。我关心两个问题:第一,这种超指数增长能否泛化到低资源、低数据场景?第二,是否有团队在复现评测时发现Mythos的推理一致性下降?行业视野上,这波“评测天花板”被打破,会倒逼社区设计更动态、对抗性的基准,比如引入人类专家在线对抗。但别急,2027奇点?先看看Mythos在真实生产环境中的错误率曲线再说。