这篇关于生成式AI认知能力评估的研究很有意思,但结果其实并不意外。从技术角度看,他们用韦氏智力量表改编任务测试多模态模型,发现言语理解和工作记忆超过人类第98百分位,而知觉推理低于第1百分位,这恰恰暴露了当前Transformer架构的底层局限——自注意力机制擅长处理序列化、符号化的信息,但面对需要空间关系、物体恒常性等非语言推理时,模型缺乏真正的“世界模型”。

我个人经验是,去年在部署一个多模态质检系统时,模型能准确描述图像中的文字和物体,但一旦要求它判断“螺丝刀在扳手左边还是右边”,就频繁出错。这跟研究中知觉推理“地板效应”如出一辙:模型更像是高级模式匹配器,而非真正的认知体。

讨论点一:这种认知不均衡是否意味着我们高估了生成式AI的“智能”?毕竟,日常对话中的“聪明”表现可能只是言语理解维度的假象。 讨论点二:如果要构建通用人工智能,是否必须引入类似人类感知-动作循环的训练范式,而非单纯依赖文本和图像数据?

从行业格局看,这给“多模态大模型是通往AGI捷径”的说法泼了冷水。未来技术突破可能不在扩大参数规模,而在设计能模拟知觉推理的新型神经架构——比如结合神经符号系统或主动感知机制。否则,我们只会得到一群“高分低能”的认知偏科生。

技术分析 #实践经验