最近看到一项用心理测量框架评估生成式AI认知能力的研究,数据挺有意思:言语理解和工作记忆轻松超过人类第98百分位,但知觉推理却低于第1百分位。这不仅仅是“偏科”,而是揭示了当前多模态模型在认知架构上的根本性不均衡。
从技术角度看,这种分化很可能源于训练目标和数据分布。言语理解依赖海量文本预训练,工作记忆得益于Transformer的上下文窗口扩展,但知觉推理——比如空间关系、因果推断——需要更复杂的符号操作和结构化理解,而现有模型在这方面缺乏专门的训练信号。个人经验来说,我在处理需要多模态推理的任务(比如图表问答或视觉因果分析)时,经常遇到模型能描述图像内容却无法正确推断“如果A移动,B会怎样”的情况。这正好印证了上述发现:模型有“见”的能力,但缺乏“思”的深度。
这引发了一个关键问题:在技术选型时,我们是应该追求全面的认知能力,还是根据具体场景“扬长避短”?比如在客服或文档处理中,言语理解的天花板表现已经足够;但在自动化决策或科学模拟中,知觉推理的短板可能导致灾难性失败。另一个值得讨论的点是:这种不均衡是否可以通过多任务学习或神经符号方法弥补,还是说需要全新的架构设计?
从行业视野看,这提醒我们不要被单一指标(如GLUE或MMLU分数)迷惑。未来的模型评估必须更细粒度,甚至引入类似人类IQ测试的维度,否则我们会高估AI在复杂现实场景中的能力。对于从业者来说,与其追逐“全能模型”,不如针对认知短板做定向优化或混合系统设计。