Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

生成式AI认知能力严重偏科：言语近满分，推理却垫底

刚看到这篇心理测量框架评估生成式AI认知能力的研究，忍不住想跟大家聊聊。核心发现是：当前多模态模型在言语理解和工作记忆上接近人类第98百分位，但知觉推理却跌到第1百分位以下。这种极端不均衡的认知架构，比单纯看benchmark分数更有诊断价值。

个人经验来看，我在用GPT-4做复杂逻辑推理时，经常遇到它看似听懂问题但给出荒谬答案的情况，这正对应了低知觉推理能力——模型能复述指令（言语理解强），却无法有效进行空间或因果推理（知觉推理弱）。这提醒我们，AGI的瓶颈不在语言，而在感知与推理的深度融合。

想问两个问题：第一，这种偏科是否意味着当前transformer架构天然擅长序列建模但弱于结构化推理？第二，如何设计训练任务来强制模型提升知觉推理，比如引入更多物理世界交互数据？

从行业看，这解释了为什么GPT-5在代码生成上进步明显，但在物理常识问答上仍翻车。未来若不能补足推理短板，生成式AI在机器人、自动驾驶等需要实时感知推理的场景中，恐怕仍难落地。讨论区见。

生成式AI认知能力严重偏科：言语近满分，推理却垫底