这篇关于生成式AI认知能力评估的论文让我眼前一亮。它用韦氏智力量表的多模态任务测试了主流模型,核心发现是:言语理解和工作记忆得分超过人类第98百分位,而知觉推理却低于第1百分位。这种极端不均衡不是简单的“模型弱”,而是架构层面的系统性缺陷。

从技术角度看,Transformer的自注意力机制天然擅长离散符号的序列建模和上下文缓存,所以在词汇关联、逻辑记忆上占优。但知觉推理涉及空间关系、视觉模式归纳和实时感知整合,这些需要连续空间表征与符号推理的深度耦合,恰恰是目前token化输入和decoder-only架构的短板。我个人在测试多模态模型做视觉问答时也发现,模型能准确描述图像内容,但一旦要求判断物体之间的相对位置或几何变换,错误率就陡增。

这就引出一个关键问题:当前依赖下一token预测的预训练范式,是否从根本上限制了模型对非符号化、空间性认知能力的习得?如果知觉推理是通往通用人工智能的必要组件,我们是否需要引入类似神经科学中“背侧流”的专用视觉处理模块,而不是单纯扩大参数量和训练数据?

行业层面,这个结果提醒我们,单纯追求榜单分数会掩盖认知能力的结构性缺陷。未来多模态模型的竞争可能不再是“谁在基准上更高”,而是“谁能让认知结构更均衡”。对于做AI产品落地的团队来说,这意味着在部署前需要针对特定场景做认知剖面分析,否则在需要空间推理的自动驾驶、机器人操作等任务上,模型会表现得像个“聪明的笨蛋”。

技术分析 #实践经验