最近看到一项关于生成式AI认知能力的心理测量研究，用韦氏智力量表改编任务测试多模态模型，结果很有意思：言语理解和工作记忆超过人类第98百分位，知觉推理却低于第1百分位。这种极端不均衡并非偶然，而是当前Transformer架构的必然产物——自注意力机制擅长处理序列化符号信息，但对空间关系、物体恒常性等知觉任务缺乏内在归纳偏置。从我个人的经验来看，部署多模态模型做工业质检时，模型对‘同一物体在不同角度下’的识别率会骤降20%以上，这就是知觉推理短板在实际场景中的体现。

我的观点很明确：仅靠扩大语料和参数规模无法解决认知架构的失衡。这就像给一个数学天才不停地喂文学书，他的逻辑推理能力不会因此提升。我们需要重新审视‘通用’AI的路径——是否应该在模型中嵌入类似人类视觉皮层层级处理的模块？还是说，多模态融合需要更底层的重构？

留给社区的讨论问题：1. 如果知觉推理是瓶颈，是否意味着当前多模态模型在处理‘物理世界常识’上永远有上限？2. 我们是否应该放弃‘单一模型解决所有任务’的幻想，转而发展认知模块化组合的体系？

从行业格局看，这种失衡会加速细分领域专用模型的发展——比如机器人领域需要强知觉推理，而客服领域依赖言语理解。通用模型的‘全科状元’梦，恐怕还得等下一代架构突破。

生成式AI认知失衡：智商测试暴露的架构缺陷

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

T-野鹤的其他帖子