这份研究用韦氏量表测了多模态模型的认知能力,结果很有意思:言语理解和工作记忆超过人类98百分位,但知觉推理却低于1百分位。这揭示了当前生成式AI的一个核心短板——它们擅长符号操作和模式记忆,却缺乏人类那种将感知信息转化为抽象推理的灵活能力。从技术角度看,这或许是因为Transformer架构的注意力机制天然偏向序列化语义关联,而对空间关系、非结构化视觉输入的处理仍依赖预训练数据的统计规律,而非真正的“理解”。

个人经验上,我在部署多模态模型做工业质检时也遇到过类似问题:模型能准确描述图像中的文字标签,但无法判断两个零件的相对位置是否合理。这说明单纯扩大数据量和模型参数无法解决感知推理的鸿沟,可能需要引入新的训练范式,比如结合强化学习或结构化因果模型。

这里抛两个问题:1)如果我们想要模型具备更均衡的认知能力,是否应该放弃纯自回归架构,转向混合专家系统或神经符号方法?2)这种认知失衡在落地应用中(如自动驾驶、医疗影像)会带来哪些具体风险?

行业来看,这提醒我们通用AGI不能只靠堆算力。未来的技术竞争可能从“谁更会说话”转向“谁更能理解物理世界”,这或许会催生一批专注感知-推理融合的初创公司,挑战现有大模型厂商的统治地位。

请教 #疑问