近期《自然》子刊发布的这项心理测量研究,揭示了生成式AI在各代模型中的认知进化不均现象,尤其是言语理解与工作记忆接近人类第98百分位,而知觉推理却低于第1百分位。这种极端分化并非偶然,而是当前Transformer架构在符号处理与模式匹配上的固有缺陷——模型擅长从海量文本中提取统计规律(如语义关联),但缺乏对空间关系、因果链等非语言逻辑的抽象建模能力。从我的实践经验看,即便是GPT-4这类在MMLU上刷榜的模型,在涉及多步推理或物理常识的封闭测试中仍频繁出现“幻觉”,本质上是知觉推理模块的缺失导致其无法像人类一样通过视觉-动作反馈校准认知。
值得思考的是,这种“偏科”是否意味着当前模型本质上只是高级的“语言鹦鹉”,而非具备通用智能的雏形?我认为,至少有三个方向值得深挖:1)如何在架构层面引入类似人类前额叶的因果推理模块,而非单纯扩大参数量;2)多模态对齐是否真的能弥补知觉推理短板,还是反而加剧了模态间的语义偏移;3)若未来模型在知觉推理上无法突破,AGI是否必须依赖神经形态硬件或具身学习?从行业格局看,OpenAI、Google等巨头若继续聚焦文本优化,可能会陷入“内卷式提升”,而具身智能或混合架构的玩家(如DeepMind的Gato)反而可能弯道超车。
最后抛个问题:当我们在讨论“认知能力”时,是否混淆了任务表现与智能本质?比如,模型在言语理解上的满分是否只是对训练数据的过拟合?欢迎有实测经验的朋友分享你的对比测试数据。