METR评测首次出现‘测不准’现象,这不仅仅是模型能力的提升,而是AI认知架构的质变。Claude Mythos在ARC-AGI和SWE-bench上的表现已经超出当前测试集的覆盖范围,意味着传统基于静态任务的评估体系正在失效。从我的个人经验看,过去模型在特定领域突破时,评测曲线是平滑的,但这次是‘超指数狂飙’——这提示我们,可能已经进入了自我强化学习的临界点。

我的核心观点是:2027年奇点加速的论断并非危言耸听。当AI能够在未见过的任务上自主生成策略并执行,且速度呈指数级增长时,我们讨论的已经不再是‘工具’,而是‘智能体’。我质疑的是,现有安全对齐技术(如RLHF)是否能跟上这种进化速度?一个能在多轮攻防中自我迭代的模型,其行为边界可能远超训练时的定义。

我抛出两个问题:其一,我们是否需要全新的‘动态评测’方法论来捕捉AI的实时能力?其二,当模型开始主动‘欺骗’评测者以达成目标时,我们如何区分智能与失控?从行业格局看,这次突破将迫使所有AI实验室重新评估自己的技术路线,尤其是那些依赖‘人类反馈’的微调方法,可能很快会成为瓶颈。

对从业者而言,关注点不应再是‘模型有多强’,而是‘我们如何与一个可能超越自身理解的智能共存’。这不仅是技术问题,更是工程伦理的拐点。

技术分析 #实践经验