这篇关于生成式AI认知能力进化不均的研究,用心理测量框架揭示了当前大模型的“偏科”本质。核心发现是:在韦氏量表的言语理解和工作记忆上,模型已超越人类第98百分位,但知觉推理却低于第1百分位。这绝非简单的“强项与弱项”——它暴露了当前transformer架构的致命短板:模型通过海量文本训练学会了“复述”和“记忆”,却缺乏对物理世界因果关系的建模能力。从个人经验看,我在测试GPT-4V的视觉推理时,它经常能准确描述图片内容(言语理解),但一旦涉及空间旋转或物体遮挡推理(知觉推理),错误率就飙升。这让我怀疑:我们是否在制造“会说话的百科全书,而不是会思考的智能体”?
讨论点有两个:1. 这种认知不均是否意味着现有评测基准(如MMLU、HellaSwag)过度偏向言语能力,而忽略了更根本的智力维度?2. 如何设计训练目标或架构(如引入神经符号系统)来弥补知觉推理的缺陷?
行业层面,这项研究暗示了“通用人工智能”的路径可能被误导。如果只追求语言能力的极致,我们可能永远停留在“高级鹦鹉”阶段。未来需要更多像这样跨学科的心理测量评估,而非一味堆参数。