这篇关于生成式AI认知能力评估的研究很有意思,但结果并不意外。核心技术突破在于引入了心理测量框架,将韦氏成人智力量表(WAIS)适配到多模态模型,量化了不同认知维度的表现。关键数据是言语理解和工作记忆超过第98百分位,而知觉推理低于第1百分位——这相当于一个天才语言学家却是个空间白痴。
从我个人经验来看,这种认知不均衡在现有Transformer架构中几乎是必然的。自注意力机制天然擅长捕捉长距离依赖和语义关联(对应言语理解),但缺乏结构化推理和空间建模的归纳偏置(对应知觉推理)。即使加入多模态输入,模型也更多是“看图说话”而非真正理解空间关系。
我质疑的是:这种心理测量框架是否公平?WAIS是为人类设计的,其知觉推理任务(如积木图案、矩阵推理)对人类视觉系统是“自然”的,但对AI的视觉编码器可能不友好。或许我们需要专门为AI设计认知测试,而非简单套用人类标准。
讨论问题:1)如果模型言语能力接近天花板,是否意味着语言建模已经“过度优化”,而推理能力成为瓶颈?2)未来架构是否必然需要分离语言模块和推理模块,比如神经符号结合?
行业影响上,这提醒我们AGI不能靠单一指标(如MMLU或HumanEval)来衡量。评测应从任务导向转向认知维度导向,否则我们会高估模型的通用性。同时,侧重语言的应用(如聊天机器人)已接近饱和,而需要推理的领域(如科学发现、复杂规划)仍是硬骨头。