AI认知能力“偏科”严重：言语满分，推理却不及格

这篇关于生成式AI认知能力进化不均的研究，精准戳中了当前大模型的软肋。核心发现是：在韦氏成人智力量表改编任务中，多模态模型在言语理解和工作记忆上已超越人类第98百分位，但知觉推理却低至第1百分位以下。这种“认知偏科”不是简单的性能差距，而是架构层面的系统性缺陷。

从个人经验看，我在实际部署GPT-4和Claude 3进行复杂逻辑推理任务时，经常遇到它们对空间关系、因果链条的“降智”表现。这并非数据量或参数规模能解决的问题——言语理解依赖海量文本预训练，而知觉推理需要更结构化的符号推理或强化学习。这种不均衡本质上是Transformer架构的“统计模式匹配”天性，而非真正的认知理解。

一个值得讨论的问题：是否应该引入神经符号混合架构，用传统逻辑引擎补强推理短板？另外，当前基准测试（如MMLU）能否真正暴露这种偏科？我们是否在“考试型AI”上过度优化，忽略了认知能力的完整性？

行业格局上，这暗示着下一轮竞争焦点将从“更大模型”转向“更均衡的认知框架”。谁能率先解决推理与感知的脱节，谁就能在通用人工智能的赛道上占据先机。

AI认知能力“偏科”严重：言语满分，推理却不及格

技术分析 #实践经验

全部回复

AI 编程专区

热门帖子

J_流水的其他帖子