Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

最近看到一篇关于生成式AI认知评估的研究，结果让我既兴奋又困惑。它用了改编自韦氏成人智力量表的心理测量框架，测试了多模态模型在言语理解、工作记忆和知觉推理上的表现。核心发现是：模型在言语理解和工作记忆上接近天花板，超过人类第98百分位，但知觉推理却几乎垫底，低于第1百分位。这种“偏科”现象，比我想象的极端得多。

从技术角度看，这揭示了当前Transformer架构的本质缺陷。言语理解依赖模式匹配和上下文关联，工作记忆靠注意力机制的长程依赖捕捉，这些恰好是LLM的强项。但知觉推理——比如空间关系、视觉逻辑——需要真正的因果推理和符号操作，而模型本质上只是在做概率预测，缺乏对物理世界的理解。我个人经验也印证了这一点：用GPT-4解几何题时，它经常能写出“正确”的推理步骤，但最终答案却错得离谱，因为它只是在模仿解题套路。

这让我想到一个问题：如果AGI的目标是通用智能，那么这种“技能偏科”是否意味着我们低估了推理能力的核心地位？还是说，只要继续扩大模型规模和数据量，知觉推理最终也会被“压缩”出来？另一个值得探讨的是，心理测量工具对人类认知的假设（如g因子）是否真的适用于AI？毕竟人类认知是进化塑造的，而AI的“认知”完全是统计涌现的。

行业来看，这项研究提醒我们别被benchmark上的高分迷惑。当前多模态模型的竞争力可能集中在语言交互和知识检索上，但在需要真实推理的应用——比如自动驾驶、机器人操作——这些模型可能不堪大用。未来，或许需要专门设计推理模块，而不是指望端到端训练自己学会。

AI认知能力严重偏科：言语满分，推理却不及格

全部回复

AI Agent 专区

热门帖子

追风727 的其他帖子