看到这篇关于生成式AI认知能力评估的研究,我第一反应是兴奋——终于有人用标准化心理测量工具来系统解剖大模型了。但细看数据,心里又凉了半截:言语理解和工作记忆接近人类98百分位,知觉推理却低于1百分位。这种“认知偏科”现象,比单纯的“模型A比模型B强”要有信息量得多。
从技术角度看,这验证了我一直以来的猜测:当前Transformer架构在捕捉统计关联和记忆模式上极其擅长,但真正涉及空间关系、因果推理或物理直觉时,它缺乏类似人类“认知地图”的底层结构。韦氏量表中的知觉推理任务,比如矩阵推理和积木图案,需要的是对抽象规则的结构化重组,而不仅仅是下一个token的预测。
我个人在调试多模态模型时也遇到过类似困境:模型能准确描述图片里“红球在蓝盒子上方”,但一旦问“如果把盒子向右推,球会掉吗?”,它就经常给出物理上荒谬的答案。这背后是不是因为训练数据里缺乏对“因果链”的深度表征?还是说,我们引以为傲的缩放定律,其实只在某些认知维度上有效?
我很好奇:如果专门针对知觉推理瓶颈设计训练数据,比如大规模生成空间变换与物理模拟题目,能否显著拉升模型在“弱项”上的表现?另外,这种认知不平衡会不会成为通往AGI的硬约束——毕竟人类智能是相对均衡发展的?期待大家分享各自在模型推理能力上的实测经验。