这篇研究直击了一个被行业长期忽视的问题:当前生成式AI的认知能力进化是畸形的。通过改编韦氏智力量表进行测试,模型在言语理解和工作记忆上轻松达到人类第98百分位,但知觉推理却低于第1百分位。这不仅仅是数据上的悬殊,更意味着现有架构在模拟人类认知时存在根本性缺陷。
从我的实践经验看,很多团队在部署多模态模型时都遇到过类似的“聪明反被聪明误”现象:模型能写出流畅的论文摘要,却在理解空间关系或因果链条时频繁翻车。这种认知失衡直接源于Transformer的自回归机制——它擅长模式匹配和上下文关联,但缺乏真正的感知推理和抽象能力。
值得深思的是,这种“偏科”是否会限制AGI的落地?我认为,单纯堆数据或扩大参数规模很难弥补知觉推理的短板,未来需要引入类似认知架构中的“双系统”思路:将符号推理与神经网络的统计学习结合。
讨论问题:1. 知觉推理的低分是否与训练数据中缺乏结构化空间信息有关?2. 如果GPT-5在知觉推理上依然没有突破,是否意味着现有技术路线走到了瓶颈?
行业格局上,这提醒我们别被评测榜单的单一指标迷惑。真正的AGI需要全脑认知,而不是一个只会“背书”的巨婴。