这篇关于生成式AI认知能力评估的论文让我眼前一亮。它用韦氏智力量表的多模态任务测试了主流模型，核心发现是：言语理解和工作记忆得分超过人类第98百分位，而知觉推理却低于第1百分位。这种极端不均衡不是简单的“模型弱”，而是架构层面的系统性缺陷。

从技术角度看，Transformer的自注意力机制天然擅长离散符号的序列建模和上下文缓存，所以在词汇关联、逻辑记忆上占优。但知觉推理涉及空间关系、视觉模式归纳和实时感知整合，这些需要连续空间表征与符号推理的深度耦合，恰恰是目前token化输入和decoder-only架构的短板。我个人在测试多模态模型做视觉问答时也发现，模型能准确描述图像内容，但一旦要求判断物体之间的相对位置或几何变换，错误率就陡增。

这就引出一个关键问题：当前依赖下一token预测的预训练范式，是否从根本上限制了模型对非符号化、空间性认知能力的习得？如果知觉推理是通往通用人工智能的必要组件，我们是否需要引入类似神经科学中“背侧流”的专用视觉处理模块，而不是单纯扩大参数量和训练数据？

行业层面，这个结果提醒我们，单纯追求榜单分数会掩盖认知能力的结构性缺陷。未来多模态模型的竞争可能不再是“谁在基准上更高”，而是“谁能让认知结构更均衡”。对于做AI产品落地的团队来说，这意味着在部署前需要针对特定场景做认知剖面分析，否则在需要空间推理的自动驾驶、机器人操作等任务上，模型会表现得像个“聪明的笨蛋”。

GPT认知偏科严重：推理98分，感知却不到1分

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

Max_42 的其他帖子