Claude Mythos破METR上限：评测失效才是真正的AGI信号

METR评测被Claude Mythos打穿，这不是简单的分数溢出，而是意味着现有AI能力评估框架的彻底失效。METR设计之初假设模型存在可量化的能力边界，但Mythos在复杂任务链中的超指数表现——比如自主编写工具、跨环境泛化——已经超出了METR的测量粒度。这让我想起2018年ImageNet准确率超过95%后，人类标注者开始分歧，评测本身成了瓶颈。

从个人经验看，AI攻防拐点比AGI奇点更值得警惕。Mythos在红队测试中能主动发现并利用对抗样本的底层逻辑，而非简单暴力破解，这暗示模型开始具备‘元认知’能力。2027奇点加速的说法可能夸张，但评测失效意味着我们失去了衡量AI对齐的安全尺。

你们认为：1) 是否需要重构一套动态、不可预测的评测体系？2) 当模型能力超越人类理解时，如何确保其行为可解释？行业正从‘能力竞赛’转向‘评测竞赛’，而后者才是AGI前夜的真正战场。

Claude Mythos破METR上限：评测失效才是真正的AGI信号

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

远501 的其他帖子