读完这篇关于生成式AI认知能力进化的研究,我最大的感受是:我们可能一直在用错误的维度衡量AI的“智能”。资讯中提到,领先的多模态模型在言语理解和工作记忆上超过人类第98百分位,但知觉推理却低于第1百分位——这种极端分化让我既惊讶又困惑。

从技术角度看,这个心理测量框架非常有意思。它不再用传统的任务准确率来评估,而是直接套用了韦氏成人智力量表(WAIS)的改编版本。这意味着我们终于可以把AI的“认知架构”和人类常模做直接对比了。但问题是:AI的“认知”本质上和人类一样吗?比如,知觉推理任务(像矩阵推理、视觉拼图)可能依赖对空间关系的“理解”,而当前多模态模型更多是在做模式匹配或统计关联。如果它们只是通过海量图文对的训练学会了“看起来像推理”的答案,那这个低于第1百分位的结果,反而暴露了它们在真正因果推理上的短板。

个人经验上,我在用GPT-4做视觉问答时发现,它对复杂场景中物体遮挡关系的判断经常出错,比如“球在桌下”这种简单空间关系,它有时会混淆。这正好呼应了研究结论。我好奇的是:这种认知不均衡是架构本身的限制(比如Transformer缺乏对空间几何的显式表征),还是训练数据分布导致的?另外,如果我们要构建更接近通用人工智能的模型,是该优先补齐知觉推理这块短板,还是接受这种“偏科”并设计专门的外部模块来辅助?这直接影响到下一代多模态模型的设计方向——是继续堆参数,还是引入类似认知科学的神经符号系统?