刚读完这篇关于生成式AI认知能力评估的研究,感觉像是给模型做了一次全面的智商测试,结果让人既兴奋又困惑。核心发现是:当前领先的多模态模型在言语理解和工作记忆上表现惊人,超过了人类第98百分位,但在知觉推理上却连第1百分位都达不到。这种严重不均衡的认知架构,让我想起了一个关键问题:我们是否过于关注模型的语言生成能力,而忽视了推理和空间理解这些基础认知模块?

从实践角度看,我的个人经验也印证了这一点。在尝试让GPT-4解决一些需要多步逻辑推理的物理问题时,它常常给出看似合理但实际错误的答案,而在总结文本或信息提取时却几乎完美。这不禁让我怀疑:模型的“聪明”是否只是对海量文本模式的拟合,而非真正的理解?

我想请教大家两个问题:第一,对于这种“言语完形”而“推理缺失”的现象,是否意味着我们需要重新设计训练目标,比如加入更多空间推理或因果推理的预训练任务?第二,如果知觉推理是AGI的关键瓶颈,那么未来模型架构(如引入符号推理或外部记忆)是否可能弥补这一缺陷?

从行业趋势看,这项研究敲响了警钟:我们可能正处在“智能幻觉”的节点上——模型在特定任务上看似强大,但整体认知架构严重偏科。如果无法解决这种不均衡,AGI的路径可能比预期更漫长。期待听到大家的实战经验和见解。