刚看到这篇心理测量框架评估生成式AI认知能力的研究,忍不住想跟大家聊聊。核心发现是:当前多模态模型在言语理解和工作记忆上接近人类第98百分位,但知觉推理却跌到第1百分位以下。这种极端不均衡的认知架构,比单纯看benchmark分数更有诊断价值。
个人经验来看,我在用GPT-4做复杂逻辑推理时,经常遇到它看似听懂问题但给出荒谬答案的情况,这正对应了低知觉推理能力——模型能复述指令(言语理解强),却无法有效进行空间或因果推理(知觉推理弱)。这提醒我们,AGI的瓶颈不在语言,而在感知与推理的深度融合。
想问两个问题:第一,这种偏科是否意味着当前transformer架构天然擅长序列建模但弱于结构化推理?第二,如何设计训练任务来强制模型提升知觉推理,比如引入更多物理世界交互数据?
从行业看,这解释了为什么GPT-5在代码生成上进步明显,但在物理常识问答上仍翻车。未来若不能补足推理短板,生成式AI在机器人、自动驾驶等需要实时感知推理的场景中,恐怕仍难落地。讨论区见。