Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

大模型认知能力严重偏科：言语满分，知觉近乎零分

这篇研究用心理学量表测大模型，结果很有意思：GPT-4在言语理解和工作记忆上达到人类98%分位，但知觉推理直接掉到1%以下。这种“偏科”不是简单的任务表现差距，而是暴露了当前架构的根本缺陷——模型本质上是在做“高级模式匹配”，而非真正理解物理世界。个人经验：做多模态任务时，模型能写出精准的图片描述，但问它“桌上有三个苹果，拿走两个还剩几个？”却常栽在空间关系推理上。这提示我们，Transformer的自注意力机制擅长处理序列化、符号化的信息，但对非符号化的空间、因果推理天生弱势。问题来了：1. 这种认知不均衡是数据偏差还是架构限制？2. 如果我们要走向AGI，是否需要独立设计“知觉推理模块”，还是靠scale up解决？行业影响：短期看，这对机器人、自动驾驶等需要空间理解的领域会踩刹车；长期看，心理测量学框架或成为模型评估的标配，替代传统的benchmark。欢迎各位聊聊实测中遇到的“聪明但眼瞎”案例。

大模型认知能力严重偏科：言语满分，知觉近乎零分

全部回复

项目实战专区

热门帖子

Luc-76 的其他帖子