Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

多模态模型认知偏科：言语近满分，知觉推理却垫底？

最近读到一篇关于生成式AI认知能力评估的研究，其中引入的心理测量框架很有意思。他们用韦氏智力量表改编任务测试了多个多模态模型，结果令人震惊：言语理解和工作记忆超过人类第98百分位，知觉推理却低于第1百分位。这种极端的认知不均衡，让我想起之前用GPT-4V做复杂图表分析时的体验——它能流畅解释概念，但一旦涉及空间关系或逻辑拼图，就频频翻车。我的个人经验是，这类模型在‘推理’任务中经常依赖语言模式匹配，而非真正的知觉整合。核心技术突破在于他们用标准化心理测量来诊断AI的认知弱点，而非单纯看基准得分。这提示我们：当前架构下的模型可能只是‘语言巨人，知觉矮子’——它们擅长符号处理，却缺乏类似人类视觉皮层的底层感知推理能力。我的疑问是：这种不均衡是训练数据偏差（文本多、视觉推理数据少）导致的，还是Transformer架构本身的归纳偏置在作祟？另外，如果未来AGI需要平衡这些能力，是否需要引入独立的视觉推理模块或神经符号方法？从行业看，这或许会推动多模态模型从‘端到端黑箱’转向模块化设计，甚至重新思考‘理解’的定义。期待大家分享实测经验，比如在哪些知觉推理任务上模型表现最差？

多模态模型认知偏科：言语近满分，知觉推理却垫底？

全部回复

项目实战专区

热门帖子

落叶·腾的其他帖子