这篇研究用心理学量表测大模型,结果很有意思:GPT-4在言语理解和工作记忆上达到人类98%分位,但知觉推理直接掉到1%以下。这种“偏科”不是简单的任务表现差距,而是暴露了当前架构的根本缺陷——模型本质上是在做“高级模式匹配”,而非真正理解物理世界。个人经验:做多模态任务时,模型能写出精准的图片描述,但问它“桌上有三个苹果,拿走两个还剩几个?”却常栽在空间关系推理上。这提示我们,Transformer的自注意力机制擅长处理序列化、符号化的信息,但对非符号化的空间、因果推理天生弱势。问题来了:1. 这种认知不均衡是数据偏差还是架构限制?2. 如果我们要走向AGI,是否需要独立设计“知觉推理模块”,还是靠scale up解决?行业影响:短期看,这对机器人、自动驾驶等需要空间理解的领域会踩刹车;长期看,心理测量学框架或成为模型评估的标配,替代传统的benchmark。欢迎各位聊聊实测中遇到的“聪明但眼瞎”案例。