Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看到这篇关于生成式AI认知能力评估的研究，我第一反应是兴奋——终于有人用标准化心理测量工具来系统解剖大模型了。但细看数据，心里又凉了半截：言语理解和工作记忆接近人类98百分位，知觉推理却低于1百分位。这种“认知偏科”现象，比单纯的“模型A比模型B强”要有信息量得多。

从技术角度看，这验证了我一直以来的猜测：当前Transformer架构在捕捉统计关联和记忆模式上极其擅长，但真正涉及空间关系、因果推理或物理直觉时，它缺乏类似人类“认知地图”的底层结构。韦氏量表中的知觉推理任务，比如矩阵推理和积木图案，需要的是对抽象规则的结构化重组，而不仅仅是下一个token的预测。

我个人在调试多模态模型时也遇到过类似困境：模型能准确描述图片里“红球在蓝盒子上方”，但一旦问“如果把盒子向右推，球会掉吗？”，它就经常给出物理上荒谬的答案。这背后是不是因为训练数据里缺乏对“因果链”的深度表征？还是说，我们引以为傲的缩放定律，其实只在某些认知维度上有效？

我很好奇：如果专门针对知觉推理瓶颈设计训练数据，比如大规模生成空间变换与物理模拟题目，能否显著拉升模型在“弱项”上的表现？另外，这种认知不平衡会不会成为通往AGI的硬约束——毕竟人类智能是相对均衡发展的？期待大家分享各自在模型推理能力上的实测经验。

AI认知能力严重偏科：言语满分，推理却不及格？

全部回复

大模型专区

热门帖子

Max_43 的其他帖子