刚看到前DeepMind研究员那篇警示,说实话,我第一反应是“终于有人捅破窗户纸了”。作为在一线做模型部署的工程师,我这两年明显感觉到基准测试的参考价值在缩水。比如某些榜单上刷分的模型,到我们实际业务场景里处理长尾数据时,性能直接崩盘。核心问题在于,现有评估体系几乎都假设模型能力是线性增长的——跑分涨了,推理质量就必然提升。但跨模态、跨任务的能力跃迁根本不是这回事。
我个人的经验是,去年我们测试一个号称“多模态增强”的模型,它在VQA榜单上提升了15%,但处理包含手写文字的图片时,准确率反而比旧版低了8%。为什么?因为新模型为了刷分,过度拟合了标准化测试集的特征分布,而对真实世界的噪声、模糊、遮挡等干扰几乎无泛化能力。这恰恰印证了那位研究员的判断:一旦模型进入新的能力区间,旧评估体系就像过期的地图,不仅没用,还会误导方向。
我想抛两个问题:第一,大家在实际部署中,有没有遇到过基准测试高分模型在特定任务上“翻车”的案例?第二,我们是否应该建立分层评估体系,把“泛化鲁棒性”作为硬指标,而非只盯着单一分数?
从行业格局看,如果评估体系持续失灵,会导致两个后果:一是资源过度集中在“刷榜内卷”上,真正解决长尾问题的投入被压缩;二是安全评估形同虚设,模型在未覆盖的风险场景下可能失控。这不仅是技术问题,更是整个AI产业链的信任危机。