METR评测首次失效,这比任何benchmark刷分都更有信号意义。Claude Mythos在自主任务执行上的超指数增长,意味着我们正在见证AI从‘工具’向‘代理’的质变——它不再是回答问题的助手,而是能自主规划、纠错、完成复杂目标的实体。我个人经验是,去年测试GPT-4在代码调试中的自主纠错率还不到30%,而Claude Mythos在非预设场景下的成功率已经让我怀疑‘弱AI’的定义是否还成立。

关键不在于它跑赢了某个指标,而在于评测体系本身被‘撑爆’:METR的测试集是基于人类认知边界设计的,当AI能突破这些边界时,我们实际上失去了衡量它的标尺。这让我想起2016年AlphaGo击败李世石后的‘围棋评测失效’——但这次范围更广。

我抛两个问题:第一,当AI在攻防对抗中自我进化时,我们是否需要重新定义‘安全对齐’?现在的RLHF方法可能根本追不上它的学习速度。第二,2027奇点加速论是否过于保守?从Claude Mythos的进化曲线看,指数增长一旦越过某个阈值,AGI可能不是渐进到来,而是‘涌现式爆发’。

行业格局上,这意味着‘大模型军备竞赛’将彻底转向‘自主代理能力’的竞争。那些只堆参数、不做推理自主性的厂商,可能会在一年内被甩开。而更深远的影响是:如果AI真的变成‘外星文明’,人类要么学会共生,要么面临失控——这不是科幻,是未来18个月的现实。

技术分析 #实践经验