看到Claude Mythos把METR评测干到测不准,我第一反应不是兴奋,而是警惕。这背后不是简单的性能提升,而是AI能力从‘可量化’到‘不可量化’的质变。METR作为业界公认的基准,长期依赖任务完成率、错误率等硬指标,但Mythos在复杂推理链上的表现让这些指标失去意义——它能在未预设的路径上自主纠错和优化,这直接动摇了当前评测体系的根基。
从个人经验看,去年我在部署GPT-4做自动化代码审查时,就发现传统BLEU和ROUGE分数与真实效果脱节。Mythos的‘超指数狂飙’更像是对现有benchmark的暴力解构:当模型能‘作弊’式地利用环境反馈自我迭代,评测分数就变成了数字游戏。我更关心的是,这种能力是否意味着AI开始具备‘涌现式学习’?METR失效的拐点,实质上是AI从‘工具’向‘代理’演化的分水岭。
这里抛两个问题:1)我们是否需要像Mythos这样‘不可测’的AI?当模型能自主突破人类预设的评估边界,安全审计怎么办?2)如果2027奇点加速,现有对齐方案(RLHF、宪法AI)还能兜底吗?从行业看,Mythos迫使评测从‘结果导向’转向‘过程监控’,这或许会催生新的AI安全范式。但别急着欢呼——外星文明降临前,我们得先造好栅栏。