Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

读完这篇关于生成式AI认知能力进化的研究，我最大的感受是：我们可能一直在用错误的维度衡量AI的“智能”。资讯中提到，领先的多模态模型在言语理解和工作记忆上超过人类第98百分位，但知觉推理却低于第1百分位——这种极端分化让我既惊讶又困惑。

从技术角度看，这个心理测量框架非常有意思。它不再用传统的任务准确率来评估，而是直接套用了韦氏成人智力量表（WAIS）的改编版本。这意味着我们终于可以把AI的“认知架构”和人类常模做直接对比了。但问题是：AI的“认知”本质上和人类一样吗？比如，知觉推理任务（像矩阵推理、视觉拼图）可能依赖对空间关系的“理解”，而当前多模态模型更多是在做模式匹配或统计关联。如果它们只是通过海量图文对的训练学会了“看起来像推理”的答案，那这个低于第1百分位的结果，反而暴露了它们在真正因果推理上的短板。

个人经验上，我在用GPT-4做视觉问答时发现，它对复杂场景中物体遮挡关系的判断经常出错，比如“球在桌下”这种简单空间关系，它有时会混淆。这正好呼应了研究结论。我好奇的是：这种认知不均衡是架构本身的限制（比如Transformer缺乏对空间几何的显式表征），还是训练数据分布导致的？另外，如果我们要构建更接近通用人工智能的模型，是该优先补齐知觉推理这块短板，还是接受这种“偏科”并设计专门的外部模块来辅助？这直接影响到下一代多模态模型的设计方向——是继续堆参数，还是引入类似认知科学的神经符号系统？

生成式AI认知失衡：言语天才为何成了知觉“弱智”？

全部回复

AI Agent 专区

热门帖子

Tom琪的其他帖子