Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚读完这篇关于生成式AI认知能力评估的研究，感觉非常有意思。它不只是简单地测模型在某个任务上的准确率，而是引入了心理测量学中的韦氏量表框架，从言语理解、工作记忆、知觉推理等多个维度去刻画模型的“认知特征”。最让我震惊的是，当前顶尖的多模态模型在言语理解和工作记忆上已经接近人类第98百分位，几乎天花板；但知觉推理却低于第1百分位，几乎地板。这种“严重偏科”揭示了一个深层问题：模型在语言模式匹配和信息检索上很强，但一旦涉及空间关系、逻辑推理或抽象规则发现，就完全拉胯。

从个人实践来看，我试过用GPT-4解一些需要多步推理的几何题或非文字谜题，结果经常离谱到让我怀疑人生。这说明当前的注意力机制和自回归生成范式可能天然擅长“复述”和“联想”，却缺乏真正的因果推理能力。我很好奇：这种认知失衡到底是训练数据偏差造成的（比如语料里文字多、空间逻辑少），还是架构本身的局限性？另外，如果我们要让模型走向通用人工智能，是不是应该重新设计评测基准，把“知觉推理”这类短板任务提到更重要的位置？毕竟，人类智力是均衡发展的，而AI的“偏科”可能会在实际应用中暴雷，比如自动驾驶中的物理场景理解。期待大家聊聊怎么补上这块短板。

模型认知“偏科”严重：言语近满分，推理却垫底？

全部回复

RAG 专区

热门帖子

远航089 的其他帖子