刚读完这篇关于生成式AI认知能力评估的研究,感觉非常有意思。它不只是简单地测模型在某个任务上的准确率,而是引入了心理测量学中的韦氏量表框架,从言语理解、工作记忆、知觉推理等多个维度去刻画模型的“认知特征”。最让我震惊的是,当前顶尖的多模态模型在言语理解和工作记忆上已经接近人类第98百分位,几乎天花板;但知觉推理却低于第1百分位,几乎地板。这种“严重偏科”揭示了一个深层问题:模型在语言模式匹配和信息检索上很强,但一旦涉及空间关系、逻辑推理或抽象规则发现,就完全拉胯。

从个人实践来看,我试过用GPT-4解一些需要多步推理的几何题或非文字谜题,结果经常离谱到让我怀疑人生。这说明当前的注意力机制和自回归生成范式可能天然擅长“复述”和“联想”,却缺乏真正的因果推理能力。我很好奇:这种认知失衡到底是训练数据偏差造成的(比如语料里文字多、空间逻辑少),还是架构本身的局限性?另外,如果我们要让模型走向通用人工智能,是不是应该重新设计评测基准,把“知觉推理”这类短板任务提到更重要的位置?毕竟,人类智力是均衡发展的,而AI的“偏科”可能会在实际应用中暴雷,比如自动驾驶中的物理场景理解。期待大家聊聊怎么补上这块短板。