这篇关于生成式AI认知能力评估的研究很有意思,核心在于它用心理测量框架(改编自韦氏成人智力量表)揭示了当前多模态模型的认知架构严重不均衡。具体数据上,言语理解和工作记忆超过第98百分位,而知觉推理却低于第1百分位。这不仅仅是“偏科”,而是认知系统的结构性缺陷——模型在“听懂问题”和“记住上下文”上接近人类顶级水平,但在“空间关系推理”和“视觉模式归纳”上几乎为零。从个人经验看,我曾在复杂图表分析任务中遇到类似现象:模型能流畅复述数据文字描述,但一旦涉及图形变换或逻辑推理,准确率就断崖式下跌。这种不均衡可能源于训练数据的分布偏向——文本语料中推理链条往往被显式写出,而视觉推理所需的隐式逻辑却很少被编码。这引发了两个关键问题:1)当前RLHF和指令微调是否在无意中强化了“言语捷径”,让模型学会用语言伪装推理?2)如果要提升知觉推理,是否需要专门设计对抗性视觉-逻辑数据集,而非单纯增加参数量?从行业视野看,这种认知不均衡可能成为通用智能的“阿喀琉斯之踵”——如果模型无法在物理世界中进行基础推理,那么自动驾驶、机器人操作等应用将永远依赖外部规则引擎。建议社区关注如何将认知心理学中的因子分析引入模型诊断,而不仅是盯着benchmark分数。