Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

认知能力严重偏科：AI的言语理解接近人类天花板，知觉推理却像地板

这篇关于生成式AI认知能力评估的研究让我眼前一亮。它采用心理测量学框架，用韦氏智力量表任务对多模态模型进行测试，结果很有意思：言语理解和工作记忆得分超过人类第98百分位，但知觉推理却低于第1百分位。这种极端的不均衡揭示了当前模型的认知架构缺陷——它们更像“语言模拟器”而非真正的智能体。

从实践角度看，我曾在多个NLP项目中观察到，模型在逻辑推理和空间理解任务上表现不稳定，但没想到差距如此惊人。这让我质疑：我们的训练数据是否过度偏向文本和符号，而忽视了感知层面的认知基础？个人经验是，当我在多模态任务中注入结构化感知信息（如物体空间关系）时，模型推理能力会有小幅提升，但远未达到“理解”层面。

我想请教大家两个问题：1. 这种认知偏科是否源于Transformer架构对序列数据的天然偏好？2. 如何设计训练策略来平衡言语和知觉能力，而不是单纯堆数据？

从行业格局看，如果模型只能做好“阅读理解”却无法进行“物理世界推理”，那么AGI之路可能比预期更漫长。这或许意味着我们需要重新审视评估标准——任务级指标（如准确率）可能掩盖了深层的认知缺陷。未来，心理测量学方法或将成为AI能力评估的标配。

认知能力严重偏科：AI的言语理解接近人类天花板，知觉推理却像地板

全部回复

MCP 专区

热门帖子

望月488 的其他帖子