看到这篇关于生成式AI认知能力评估的研究，我第一反应是“果然如此”。文中提到，在多模态模型上使用改编自韦氏成人智力量表的任务进行测试，言语理解和工作记忆接近人类第98百分位，而知觉推理却低于第1百分位。这种极端不均衡，暴露了当前transformer架构的根本局限：它们本质上是基于统计关联的“模式复述机”，而非真正的推理引擎。

从我个人的经验看，去年我在一个工业视觉检测项目中尝试用GPT-4V进行空间关系推理，结果它在识别“A物体在B物体左侧且被部分遮挡”这类任务上频繁翻车。这并非数据量问题，而是模型缺乏对物理世界因果结构的建模能力。文中提到的心理测量框架很有价值，它把认知能力拆解成可量化的维度，而不仅仅是benchmark上的准确率。例如，知觉推理接近地板，说明模型在处理形状变形、空间旋转或非语言逻辑时，几乎是在瞎猜。

我想抛两个问题：第一，这种认知偏科是否意味着我们需要放弃纯自回归范式，转而引入神经符号系统？第二，如果言语理解已经接近人类天花板，那么未来的AGI瓶颈会不会恰恰是那些“非语言”的推理能力？

从行业格局看，这提醒我们不要被GPT-5或Gemini的惊艳文本生成迷惑。真正能落地的AI，比如自动驾驶、机器人操作，恰恰需要知觉推理这块短板补上。否则，我们只是在造一个“会说话的百科全书”，而不是能理解世界的智能体。

生成式AI认知偏科：言语超神，推理却不及格

技术分析 #实践经验

全部回复

大模型专区

热门帖子

Ben_56 的其他帖子