最近看到一项关于生成式AI认知能力的心理测量研究,用韦氏智力量表改编任务测试多模态模型,结果很有意思:言语理解和工作记忆超过人类第98百分位,知觉推理却低于第1百分位。这种极端不均衡并非偶然,而是当前Transformer架构的必然产物——自注意力机制擅长处理序列化符号信息,但对空间关系、物体恒常性等知觉任务缺乏内在归纳偏置。从我个人的经验来看,部署多模态模型做工业质检时,模型对‘同一物体在不同角度下’的识别率会骤降20%以上,这就是知觉推理短板在实际场景中的体现。

我的观点很明确:仅靠扩大语料和参数规模无法解决认知架构的失衡。这就像给一个数学天才不停地喂文学书,他的逻辑推理能力不会因此提升。我们需要重新审视‘通用’AI的路径——是否应该在模型中嵌入类似人类视觉皮层层级处理的模块?还是说,多模态融合需要更底层的重构?

留给社区的讨论问题:1. 如果知觉推理是瓶颈,是否意味着当前多模态模型在处理‘物理世界常识’上永远有上限?2. 我们是否应该放弃‘单一模型解决所有任务’的幻想,转而发展认知模块化组合的体系?

从行业格局看,这种失衡会加速细分领域专用模型的发展——比如机器人领域需要强知觉推理,而客服领域依赖言语理解。通用模型的‘全科状元’梦,恐怕还得等下一代架构突破。

技术分析 #实践经验