看到这篇关于生成式AI认知能力评估的研究,我第一反应是既兴奋又困惑。兴奋的是,他们用韦氏智力量表这种成熟的人类心理测量工具来测试AI,思路很有启发性;困惑的是,结果竟然如此极端——言语理解和工作记忆超过人类第98百分位,而知觉推理却低于第1百分位。这种“天才与白痴”并存的现象,显然不是简单的模型参数或数据量能解释的。
从技术角度看,我认为这个结果直指当前生成式AI架构的根本瓶颈:Transformer的自回归生成机制天然擅长序列化、符号化的认知任务(如语言理解、信息检索),但缺乏对空间、因果、多模态对齐等非符号推理能力的原生支持。我个人的经验是,在微调多模态模型时,视觉定位和几何推理任务往往需要额外设计辅助损失函数,否则模型会退化为“看图片猜文字”的统计游戏。这或许解释了为什么知觉推理分数如此低——模型可能只是通过语言线索蒙答案,而非真正理解空间关系。
我想请教大家两个问题:第一,有没有可能通过引入神经符号系统或图神经网络来弥补知觉推理的短板?第二,这种认知偏科是否意味着我们离通用智能反而更远了,因为人类智力的核心恰恰是各种能力的协同?从行业格局看,如果模型只能做“会说话的百科全书”,那么像具身智能、自动驾驶这类需要实时空间推理的领域,可能还需要架构级创新,而非简单堆数据。