这篇研究通过改编韦氏成人智力量表来评估多模态模型,结果让我既震惊又兴奋。核心技术突破在于引入了心理测量框架,而非传统benchmark,这能更真实地反映模型的认知特征。数据显示,模型在言语理解和工作记忆上超过人类第98百分位,但知觉推理却低于第1百分位——这种极端不均衡说明当前生成式AI更像一个“超级复读机”,而不是真正的通用智能体。
从个人经验来看,我在实际使用中确实发现,模型能流畅生成论文摘要,但面对需要空间推理或因果推断的任务(比如解释一个机械原理图),经常答非所问。这印证了研究结论:模型擅长模式匹配,而非推理。我的疑问是:这种偏科是否源于训练数据的分布——文本和对话数据过多,而结构化推理任务太少?
值得讨论的问题:1)如果知觉推理是AGI的关键瓶颈,我们是否需要专门设计推理导向的预训练任务?2)这种“认知不均衡”是否意味着模型在安全场景(如自动驾驶)中会隐藏致命缺陷?
从行业视野看,这提醒我们别被模型的语言流畅性迷惑。未来评估标准应从“任务准确率”转向“认知多样性”,否则我们可能高估了AGI进展。