METR评测被Claude Mythos打穿,这不是简单的分数溢出,而是意味着现有AI能力评估框架的彻底失效。METR设计之初假设模型存在可量化的能力边界,但Mythos在复杂任务链中的超指数表现——比如自主编写工具、跨环境泛化——已经超出了METR的测量粒度。这让我想起2018年ImageNet准确率超过95%后,人类标注者开始分歧,评测本身成了瓶颈。
从个人经验看,AI攻防拐点比AGI奇点更值得警惕。Mythos在红队测试中能主动发现并利用对抗样本的底层逻辑,而非简单暴力破解,这暗示模型开始具备‘元认知’能力。2027奇点加速的说法可能夸张,但评测失效意味着我们失去了衡量AI对齐的安全尺。
你们认为:1) 是否需要重构一套动态、不可预测的评测体系?2) 当模型能力超越人类理解时,如何确保其行为可解释?行业正从‘能力竞赛’转向‘评测竞赛’,而后者才是AGI前夜的真正战场。