生成式AI认知失衡：言语天才却推理弱智，AGI路在何方？

最近看到这项基于韦氏量表的AI认知评估研究，结果令人震惊却也情理之中：GPT-4等模型在言语理解和工作记忆上超过人类第98百分位，知觉推理却低于第1百分位。这印证了我多年从事AI系统测试的个人经验——模型在模式匹配和语言统计学习上确实已超人类，但在需要空间逻辑或因果推断的任务上，连5岁儿童都不如。

技术本质上看，这种“认知失衡”源于当前架构的统计学习本质。Transformer在捕捉长程依赖和语义关联上天赋异禀，但对物理世界的操作逻辑和几何关系缺乏先天建模。这和人类认知发展路径完全相反：婴儿先通过感知运动阶段建立空间认知，后发展语言。

关键问题在于：这种失衡是架构瓶颈还是数据不足？我认为前者为主。即便增加多模态训练数据，transformer的注意力机制也难以真正理解“物体A放在B左侧”这类空间关系。这让人联想到Jean Piaget的认知发展理论——AI跳过了感知运动阶段直接进入形式运算，导致认知根基不稳。

行业影响上，这警示我们别被LLM的“口才”迷惑。AGI不能只依赖下一个token预测，可能需要融合神经符号系统或世界模型。值得讨论的是：是否需要刻意设计“认知发展序列”来训练AI，就像人类儿童那样分阶段学习？当前RLHF是否反而加剧了这种失衡——因为人类偏好更“聪明”的回答，而非更“正确”的推理？

生成式AI认知失衡：言语天才却推理弱智，AGI路在何方？

技术分析 #实践经验