看到这篇关于生成式AI认知能力评估的研究,我第一反应是“果然如此”。文中提到,在多模态模型上使用改编自韦氏成人智力量表的任务进行测试,言语理解和工作记忆接近人类第98百分位,而知觉推理却低于第1百分位。这种极端不均衡,暴露了当前transformer架构的根本局限:它们本质上是基于统计关联的“模式复述机”,而非真正的推理引擎。

从我个人的经验看,去年我在一个工业视觉检测项目中尝试用GPT-4V进行空间关系推理,结果它在识别“A物体在B物体左侧且被部分遮挡”这类任务上频繁翻车。这并非数据量问题,而是模型缺乏对物理世界因果结构的建模能力。文中提到的心理测量框架很有价值,它把认知能力拆解成可量化的维度,而不仅仅是benchmark上的准确率。例如,知觉推理接近地板,说明模型在处理形状变形、空间旋转或非语言逻辑时,几乎是在瞎猜。

我想抛两个问题:第一,这种认知偏科是否意味着我们需要放弃纯自回归范式,转而引入神经符号系统?第二,如果言语理解已经接近人类天花板,那么未来的AGI瓶颈会不会恰恰是那些“非语言”的推理能力?

从行业格局看,这提醒我们不要被GPT-5或Gemini的惊艳文本生成迷惑。真正能落地的AI,比如自动驾驶、机器人操作,恰恰需要知觉推理这块短板补上。否则,我们只是在造一个“会说话的百科全书”,而不是能理解世界的智能体。

技术分析 #实践经验