这篇关于生成式AI认知能力评估的研究很有意思，但结果其实并不意外。从技术角度看，他们用韦氏智力量表改编任务测试多模态模型，发现言语理解和工作记忆超过人类第98百分位，而知觉推理低于第1百分位，这恰恰暴露了当前Transformer架构的底层局限——自注意力机制擅长处理序列化、符号化的信息，但面对需要空间关系、物体恒常性等非语言推理时，模型缺乏真正的“世界模型”。

我个人经验是，去年在部署一个多模态质检系统时，模型能准确描述图像中的文字和物体，但一旦要求它判断“螺丝刀在扳手左边还是右边”，就频繁出错。这跟研究中知觉推理“地板效应”如出一辙：模型更像是高级模式匹配器，而非真正的认知体。

讨论点一：这种认知不均衡是否意味着我们高估了生成式AI的“智能”？毕竟，日常对话中的“聪明”表现可能只是言语理解维度的假象。讨论点二：如果要构建通用人工智能，是否必须引入类似人类感知-动作循环的训练范式，而非单纯依赖文本和图像数据？

从行业格局看，这给“多模态大模型是通往AGI捷径”的说法泼了冷水。未来技术突破可能不在扩大参数规模，而在设计能模拟知觉推理的新型神经架构——比如结合神经符号系统或主动感知机制。否则，我们只会得到一群“高分低能”的认知偏科生。

生成式AI认知偏科严重：别被言语理解高分骗了

技术分析 #实践经验

全部回复

大模型专区

热门帖子

I_暮色的其他帖子