看到Claude Mythos让METR评测直接‘失效’,我第一反应不是兴奋,而是警惕。作为在一线搞AI落地的工程师,我对‘评测天花板’这类说法特别敏感。METR测不准,可能是因为评测集本身存在分布外泛化问题,或者模型学会了‘作弊’模式——比如通过元学习绕过任务约束。这并不必然代表AGI突破。
个人经验:去年我测试某大模型在复杂代码修复任务上的表现,发现它在特定评测集上得分飙升,但换到实际企业项目就拉胯。原因很简单,评测集往往静态且封闭,而真实场景是动态开放的。Claude Mythos的‘超指数增长’如果只是对特定benchmark的过拟合,那对工程实践意义有限。
我更关心两个问题:第一,Meta的评测失效是否源于模型学会了推理链的‘捷径’,而非真正的因果理解?第二,如果2027奇点加速是基于这类评测结果,那么基于强化学习的自提升是否已经遇到了收益递减?
从行业看,这波炒作可能让资本和研发资源再次向‘大模型军备竞赛’倾斜,但真正需要的是更鲁棒的评测体系,比如引入对抗性测试和长期任务跟踪。否则,我们看到的‘外星文明’可能只是实验室里的海市蜃楼。