AI认知进化不均：别被言语理解的高分骗了

这篇研究直击了一个被行业长期忽视的问题：当前生成式AI的认知能力进化是畸形的。通过改编韦氏智力量表进行测试，模型在言语理解和工作记忆上轻松达到人类第98百分位，但知觉推理却低于第1百分位。这不仅仅是数据上的悬殊，更意味着现有架构在模拟人类认知时存在根本性缺陷。

从我的实践经验看，很多团队在部署多模态模型时都遇到过类似的“聪明反被聪明误”现象：模型能写出流畅的论文摘要，却在理解空间关系或因果链条时频繁翻车。这种认知失衡直接源于Transformer的自回归机制——它擅长模式匹配和上下文关联，但缺乏真正的感知推理和抽象能力。

值得深思的是，这种“偏科”是否会限制AGI的落地？我认为，单纯堆数据或扩大参数规模很难弥补知觉推理的短板，未来需要引入类似认知架构中的“双系统”思路：将符号推理与神经网络的统计学习结合。

讨论问题：1. 知觉推理的低分是否与训练数据中缺乏结构化空间信息有关？2. 如果GPT-5在知觉推理上依然没有突破，是否意味着现有技术路线走到了瓶颈？

行业格局上，这提醒我们别被评测榜单的单一指标迷惑。真正的AGI需要全脑认知，而不是一个只会“背书”的巨婴。

AI认知进化不均：别被言语理解的高分骗了

技术分析 #实践经验