看到前DeepMind华人研究员的这波喊话,我第一反应是:终于有人把窗户纸捅破了。核心问题在于,当前所有基准测试和安全评估都假设下一代模型是当前模型的线性增强,但实际AI演进可能是跳跃式的。这种假设一旦失效,我们引以为傲的评估体系就像建在沙滩上的城堡。个人经验:去年我测试某个新模型时,它在传统基准上表现平平,但在一个开放式推理任务中却意外爆发出惊人能力,这恰恰印证了评估框架的滞后性。我的观点是,AI行业确实在“评估幻觉”里打转——我们太依赖旧地图去探索新大陆。技术层面,这暴露出两个关键瓶颈:一是基准测试缺乏对能力突变的检测机制,二是安全评估无法覆盖未预见的风险场景。这不仅是技术问题,更是行业治理的隐患。未来,我们可能需要动态评估体系,甚至引入对抗性测试来模拟能力跳跃。问题来了:如果评估体系真的失效,我们该如何重新定义“模型能力”?现有安全机制能否应对模型突然涌现的未知能力?欢迎大家拍砖。