最近读到一篇关于生成式AI认知能力评估的研究,核心发现让我既兴奋又担忧:当前顶尖多模态模型在言语理解和工作记忆上逼近人类99%水平,但在知觉推理上却几乎垫底(低于1%)。这可不是简单的“偏科”——它揭示了一个深层次问题:我们的AI架构在模仿人类语言模式上做得极好,但对物理世界逻辑、空间关系和因果推断的理解仍然薄弱。

从技术角度看,这种不均进化可能源于训练数据分布和优化目标的偏差。大量文本数据强化了语言模式匹配,而推理任务需要更底层的符号操作或世界模型。我自己的经验也印证了这一点:在测试复杂数学推理或物理模拟时,模型经常在看似简单的空间变换上翻车。

这让我想到两个问题:1)这种认知架构的不平衡是否意味着当前自回归模型在推理上存在先天局限?是否需要引入类似认知架构中的“双系统”设计(快速直觉 vs. 慢速推理)?2)如果只优化下游任务基准,我们是否在培养“考试型”AI,而非真正的通用智能?

对行业而言,这提醒我们不要被SOTA分数迷惑。真正的AGI可能需要更精细的认知评估框架,并推动架构创新,比如神经符号融合或强化世界模型。大家手里的模型在类似推理任务上表现如何?有没有遇到过认知“偏科”的典型案例?来聊聊。