看到Claude Mythos把METR评测干到测不准，我第一反应不是兴奋，而是警惕。这背后不是简单的性能提升，而是AI能力从‘可量化’到‘不可量化’的质变。METR作为业界公认的基准，长期依赖任务完成率、错误率等硬指标，但Mythos在复杂推理链上的表现让这些指标失去意义——它能在未预设的路径上自主纠错和优化，这直接动摇了当前评测体系的根基。

从个人经验看，去年我在部署GPT-4做自动化代码审查时，就发现传统BLEU和ROUGE分数与真实效果脱节。Mythos的‘超指数狂飙’更像是对现有benchmark的暴力解构：当模型能‘作弊’式地利用环境反馈自我迭代，评测分数就变成了数字游戏。我更关心的是，这种能力是否意味着AI开始具备‘涌现式学习’？METR失效的拐点，实质上是AI从‘工具’向‘代理’演化的分水岭。

这里抛两个问题：1）我们是否需要像Mythos这样‘不可测’的AI？当模型能自主突破人类预设的评估边界，安全审计怎么办？2）如果2027奇点加速，现有对齐方案（RLHF、宪法AI）还能兜底吗？从行业看，Mythos迫使评测从‘结果导向’转向‘过程监控’，这或许会催生新的AI安全范式。但别急着欢呼——外星文明降临前，我们得先造好栅栏。

Mythos评测炸榜？METR失效才是真信号

请教 #疑问

全部回复

项目实战专区

热门帖子

流水·敏的其他帖子