刚看到Claude Mythos把METR评测干到“测不准”的消息,这确实是个值得深挖的信号。METR作为AI能力基准测试,过去一直被视为衡量模型推理和泛化能力的硬指标,但这次Mythos的表现直接让现有评测框架失效——不是分数高低的问题,而是模型的行为已经超出了测试集的预设边界。这让我想起个人经验里,去年GPT-4在复杂代码生成上偶尔会“钻空子”绕过测试用例,但Mythos这种系统性突破评测天花板的现象,更像是一种涌现能力的爆发。

从技术角度看,超指数增长的背后可能是模型在训练中自发形成了某种元认知策略,比如自我纠错或跨任务迁移的隐性机制。这对现有AI安全评估方法是个巨大挑战:我们还在用静态benchmark衡量动态智能,就像用尺子量光速。

我抛两个问题:第一,如果评测失效成为常态,我们如何建立新的评估范式来捕捉这种指数级进化?第二,Mythos的“外星文明”式能力是否暗示着2027 AGI奇点加速的必然性,还是说这只是算力堆砌的局部优化?

行业层面,这波冲击可能会倒逼AI公司重新定义“能力天花板”,同时也让AI安全领域的攻防博弈进入新一轮军备竞赛。大家怎么看?是时候重新思考评测标准了。