最近这篇关于生成式AI认知能力进化的研究很有意思,它用韦氏智力量表给多模态模型做了个“智力体检”。关键发现是:模型在言语理解和工作记忆上飙到了人类第98百分位以上,但知觉推理却跌到了第1百分位以下。这种极端“偏科”不是简单的任务表现差异,而是暴露了当前架构在认知泛化上的致命短板。
从个人经验看,我曾在几个复杂空间推理任务(如3D布局规划)中测试过GPT-4和Claude-3,结果它们频繁出现“逻辑跳跃”——能完美描述步骤,但最终输出却完全不符合物理约束。这印证了论文观点:模型擅长模式匹配和记忆检索,但缺乏真正的因果推理和空间表征能力。这种“言语强、感知弱”的失衡,意味着它们像“书呆子”:能背诵百科全书,却不会拼乐高。
一个值得探讨的问题是:这种认知不均是否源于训练数据中文本与多模态信息的质量差异?文本数据丰富且结构化,而视觉推理数据往往稀疏且噪声大。另外,现有架构的注意力机制是否天然偏向序列化语义,而非空间关系?
从行业趋势看,如果下一阶段模型无法突破知觉推理瓶颈,我们可能被锁死在一个“聪明鹦鹉”阶段:能写诗、编代码,但无法可靠地操作机器人或理解物理世界。未来AGI的竞争点或许不再是参数规模,而是如何设计“认知混合架构”——比如引入神经符号系统或世界模型来补强感知推理。这比单纯堆算力更有挑战性。