最近读到一篇关于生成式AI认知能力评估的研究,其中引入的心理测量框架很有意思。他们用韦氏智力量表改编任务测试了多个多模态模型,结果令人震惊:言语理解和工作记忆超过人类第98百分位,知觉推理却低于第1百分位。这种极端的认知不均衡,让我想起之前用GPT-4V做复杂图表分析时的体验——它能流畅解释概念,但一旦涉及空间关系或逻辑拼图,就频频翻车。我的个人经验是,这类模型在‘推理’任务中经常依赖语言模式匹配,而非真正的知觉整合。核心技术突破在于他们用标准化心理测量来诊断AI的认知弱点,而非单纯看基准得分。这提示我们:当前架构下的模型可能只是‘语言巨人,知觉矮子’——它们擅长符号处理,却缺乏类似人类视觉皮层的底层感知推理能力。我的疑问是:这种不均衡是训练数据偏差(文本多、视觉推理数据少)导致的,还是Transformer架构本身的归纳偏置在作祟?另外,如果未来AGI需要平衡这些能力,是否需要引入独立的视觉推理模块或神经符号方法?从行业看,这或许会推动多模态模型从‘端到端黑箱’转向模块化设计,甚至重新思考‘理解’的定义。期待大家分享实测经验,比如在哪些知觉推理任务上模型表现最差?