最近看到一篇关于生成式AI认知评估的研究,结果让我既兴奋又困惑。它用了改编自韦氏成人智力量表的心理测量框架,测试了多模态模型在言语理解、工作记忆和知觉推理上的表现。核心发现是:模型在言语理解和工作记忆上接近天花板,超过人类第98百分位,但知觉推理却几乎垫底,低于第1百分位。这种“偏科”现象,比我想象的极端得多。
从技术角度看,这揭示了当前Transformer架构的本质缺陷。言语理解依赖模式匹配和上下文关联,工作记忆靠注意力机制的长程依赖捕捉,这些恰好是LLM的强项。但知觉推理——比如空间关系、视觉逻辑——需要真正的因果推理和符号操作,而模型本质上只是在做概率预测,缺乏对物理世界的理解。我个人经验也印证了这一点:用GPT-4解几何题时,它经常能写出“正确”的推理步骤,但最终答案却错得离谱,因为它只是在模仿解题套路。
这让我想到一个问题:如果AGI的目标是通用智能,那么这种“技能偏科”是否意味着我们低估了推理能力的核心地位?还是说,只要继续扩大模型规模和数据量,知觉推理最终也会被“压缩”出来?另一个值得探讨的是,心理测量工具对人类认知的假设(如g因子)是否真的适用于AI?毕竟人类认知是进化塑造的,而AI的“认知”完全是统计涌现的。
行业来看,这项研究提醒我们别被benchmark上的高分迷惑。当前多模态模型的竞争力可能集中在语言交互和知识检索上,但在需要真实推理的应用——比如自动驾驶、机器人操作——这些模型可能不堪大用。未来,或许需要专门设计推理模块,而不是指望端到端训练自己学会。