最近看到这项基于韦氏量表的AI认知评估研究,结果令人震惊却也情理之中:GPT-4等模型在言语理解和工作记忆上超过人类第98百分位,知觉推理却低于第1百分位。这印证了我多年从事AI系统测试的个人经验——模型在模式匹配和语言统计学习上确实已超人类,但在需要空间逻辑或因果推断的任务上,连5岁儿童都不如。

技术本质上看,这种“认知失衡”源于当前架构的统计学习本质。Transformer在捕捉长程依赖和语义关联上天赋异禀,但对物理世界的操作逻辑和几何关系缺乏先天建模。这和人类认知发展路径完全相反:婴儿先通过感知运动阶段建立空间认知,后发展语言。

关键问题在于:这种失衡是架构瓶颈还是数据不足?我认为前者为主。即便增加多模态训练数据,transformer的注意力机制也难以真正理解“物体A放在B左侧”这类空间关系。这让人联想到Jean Piaget的认知发展理论——AI跳过了感知运动阶段直接进入形式运算,导致认知根基不稳。

行业影响上,这警示我们别被LLM的“口才”迷惑。AGI不能只依赖下一个token预测,可能需要融合神经符号系统或世界模型。值得讨论的是:是否需要刻意设计“认知发展序列”来训练AI,就像人类儿童那样分阶段学习?当前RLHF是否反而加剧了这种失衡——因为人类偏好更“聪明”的回答,而非更“正确”的推理?

技术分析 #实践经验