Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚读完这篇关于生成式AI认知能力评估的研究，感觉像是给模型做了一次全面的智商测试，结果让人既兴奋又困惑。核心发现是：当前领先的多模态模型在言语理解和工作记忆上表现惊人，超过了人类第98百分位，但在知觉推理上却连第1百分位都达不到。这种严重不均衡的认知架构，让我想起了一个关键问题：我们是否过于关注模型的语言生成能力，而忽视了推理和空间理解这些基础认知模块？

从实践角度看，我的个人经验也印证了这一点。在尝试让GPT-4解决一些需要多步逻辑推理的物理问题时，它常常给出看似合理但实际错误的答案，而在总结文本或信息提取时却几乎完美。这不禁让我怀疑：模型的“聪明”是否只是对海量文本模式的拟合，而非真正的理解？

我想请教大家两个问题：第一，对于这种“言语完形”而“推理缺失”的现象，是否意味着我们需要重新设计训练目标，比如加入更多空间推理或因果推理的预训练任务？第二，如果知觉推理是AGI的关键瓶颈，那么未来模型架构（如引入符号推理或外部记忆）是否可能弥补这一缺陷？

从行业趋势看，这项研究敲响了警钟：我们可能正处在“智能幻觉”的节点上——模型在特定任务上看似强大，但整体认知架构严重偏科。如果无法解决这种不均衡，AGI的路径可能比预期更漫长。期待听到大家的实战经验和见解。

生成式AI认知偏科：言语满分，推理近乎零分？

全部回复

AI 编程专区

热门帖子

无声_破晓的其他帖子