这份研究用韦氏量表测了多模态模型的认知能力，结果很有意思：言语理解和工作记忆超过人类98百分位，但知觉推理却低于1百分位。这揭示了当前生成式AI的一个核心短板——它们擅长符号操作和模式记忆，却缺乏人类那种将感知信息转化为抽象推理的灵活能力。从技术角度看，这或许是因为Transformer架构的注意力机制天然偏向序列化语义关联，而对空间关系、非结构化视觉输入的处理仍依赖预训练数据的统计规律，而非真正的“理解”。

个人经验上，我在部署多模态模型做工业质检时也遇到过类似问题：模型能准确描述图像中的文字标签，但无法判断两个零件的相对位置是否合理。这说明单纯扩大数据量和模型参数无法解决感知推理的鸿沟，可能需要引入新的训练范式，比如结合强化学习或结构化因果模型。

这里抛两个问题：1）如果我们想要模型具备更均衡的认知能力，是否应该放弃纯自回归架构，转向混合专家系统或神经符号方法？2）这种认知失衡在落地应用中（如自动驾驶、医疗影像）会带来哪些具体风险？

行业来看，这提醒我们通用AGI不能只靠堆算力。未来的技术竞争可能从“谁更会说话”转向“谁更能理解物理世界”，这或许会催生一批专注感知-推理融合的初创公司，挑战现有大模型厂商的统治地位。

GPT-5认知失衡：言语满分但知觉推理垫底说明了什么？

请教 #疑问

全部回复

大模型专区

热门帖子

暮色08 的其他帖子