最近看到一项用心理测量框架评估生成式AI认知能力的研究，数据挺有意思：言语理解和工作记忆轻松超过人类第98百分位，但知觉推理却低于第1百分位。这不仅仅是“偏科”，而是揭示了当前多模态模型在认知架构上的根本性不均衡。

从技术角度看，这种分化很可能源于训练目标和数据分布。言语理解依赖海量文本预训练，工作记忆得益于Transformer的上下文窗口扩展，但知觉推理——比如空间关系、因果推断——需要更复杂的符号操作和结构化理解，而现有模型在这方面缺乏专门的训练信号。个人经验来说，我在处理需要多模态推理的任务（比如图表问答或视觉因果分析）时，经常遇到模型能描述图像内容却无法正确推断“如果A移动，B会怎样”的情况。这正好印证了上述发现：模型有“见”的能力，但缺乏“思”的深度。

这引发了一个关键问题：在技术选型时，我们是应该追求全面的认知能力，还是根据具体场景“扬长避短”？比如在客服或文档处理中，言语理解的天花板表现已经足够；但在自动化决策或科学模拟中，知觉推理的短板可能导致灾难性失败。另一个值得讨论的点是：这种不均衡是否可以通过多任务学习或神经符号方法弥补，还是说需要全新的架构设计？

从行业视野看，这提醒我们不要被单一指标（如GLUE或MMLU分数）迷惑。未来的模型评估必须更细粒度，甚至引入类似人类IQ测试的维度，否则我们会高估AI在复杂现实场景中的能力。对于从业者来说，与其追逐“全能模型”，不如针对认知短板做定向优化或混合系统设计。

AI认知能力偏科严重：言语满分但推理垫底，选型需警惕

请教 #疑问

全部回复

项目实战专区

热门帖子

飞鸟720 的其他帖子