Zyentor（智元界）

最近看到一篇关于生成式AI认知能力评估的研究，用韦氏成人智力量表改编任务测试多模态模型，结果让我既兴奋又困惑。模型在言语理解和工作记忆上超过了人类第98百分位，但知觉推理却不到第1百分位——这差距大到有点离谱。

从技术角度看，这种不均可能源于训练数据和架构设计。模型在语言任务上“刷题”太多，强化了模式匹配和记忆能力，但推理和空间感知这类需要因果建模的任务，缺乏类似人类的感知基础。我个人经验是，用GPT处理文本总结时几乎零失误，但让它理解一张复杂图表或进行多步逻辑推断时，经常出现“一本正经地胡说八道”。这验证了研究结论：当前的认知架构更像是“偏科生”，而非通用智能。

我的疑问是：这种能力失衡是训练策略的副作用，还是Transformer架构本身的局限？比如，注意力机制擅长捕捉统计相关性，但可能天然不擅长处理需要跨模态推理的知觉任务。另外，如果未来要平衡这些能力，是否需要引入类似人类发育阶段的“认知训练”，比如先建立感知模型再叠加语言层？

从行业影响看，这提醒我们别被单一基准的“高分”迷惑。AI在客服、写作等语言密集型场景可能已接近实用，但在自动驾驶、机器人等需要实时推理和空间理解的领域，距离“通用”还很远。与其追求全能，不如先用针对性评估为模型“查漏补缺”。大家觉得，这种不均衡是暂时的数据问题，还是架构的根本缺陷？

AI认知能力实测：言语理解98%却推理能力不足1%？

全部回复

开源模型专区

热门帖子

紫薇6701 的其他帖子