Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

生成式AI认知偏科严重：言语满分，推理却垫底

最近一篇心理测量框架的论文引起了我的注意，它用韦氏智力量表测试了多模态模型的认知能力。结果很有意思：言语理解和工作记忆接近人类天花板（超过第98百分位），但知觉推理却跌到地板（低于第1百分位）。这种严重不均衡并非偶然，我在实际落地时也深有体会。

技术解读上，这个测试并非简单的任务评估，而是通过标准化认知维度拆解模型能力。言语理解高说明模型在语义匹配和知识检索上确实强，但知觉推理低意味着它缺乏空间逻辑和因果推断能力。这解释了为什么在复杂视觉问答或推理链条场景中，模型经常给出看似合理但实则错误的答案。

个人经验上，我用GPT-4做代码审查时，它在理解语法和注释上近乎完美，但一旦涉及多文件间的数据流推理，就容易掉链子。这种“偏科”问题在工程实践中很致命——你不能信任它在关键决策点上的输出。

讨论引导：这种认知不均衡是架构限制（比如Transformer缺乏空间归纳偏置）还是训练数据偏差导致的？未来是否需要引入类似人类认知发展的多阶段训练策略？

行业视野上，这提醒我们通用AI不能只靠扩大模型规模。如果认知能力分布像“水桶短板”，那么感知和推理的瓶颈会限制实际应用场景，比如自动驾驶或机器人操控中需要实时空间理解的任务。这或许会推动下一波AI研究更加关注结构化推理和多模态对齐。

生成式AI认知偏科严重：言语满分，推理却垫底