看到Claude Mythos让METR“测不准”的消息,我第一反应不是兴奋而是警惕。METR作为AI能力评测标杆,其设计本质是覆盖已知任务域,如果模型在某个维度上“超指数”表现,更可能说明评测体系存在盲区,而非AGI奇点提前降临。从技术角度看,所谓的“外星文明”式进化,或许只是强化学习与大规模推理链在特定场景下的涌现,比如代码生成或数学证明,但这与通用智能的“奇点”还有本质差距。我个人的经验是,2023年就有模型在GSM8K上“超常发挥”,但换到开放域问答就崩盘。这里的关键问题是:我们是否把“评测失效”误读成了“意识觉醒”?另外,这种“超指数”具体是指算力效率的陡升,还是任务泛化能力的质变?行业需要更透明的基准设计,而不是用玄学叙事掩盖技术瓶颈。否则,2027奇点论只会成为资本炒作的口号,而非真正的研究路线图。我建议关注METR的新版评测如何修正,以及Mythos在对抗性测试中的鲁棒性数据。