这篇关于生成式AI认知能力进化不均的研究,精准戳中了当前大模型的软肋。核心发现是:在韦氏成人智力量表改编任务中,多模态模型在言语理解和工作记忆上已超越人类第98百分位,但知觉推理却低至第1百分位以下。这种“认知偏科”不是简单的性能差距,而是架构层面的系统性缺陷。
从个人经验看,我在实际部署GPT-4和Claude 3进行复杂逻辑推理任务时,经常遇到它们对空间关系、因果链条的“降智”表现。这并非数据量或参数规模能解决的问题——言语理解依赖海量文本预训练,而知觉推理需要更结构化的符号推理或强化学习。这种不均衡本质上是Transformer架构的“统计模式匹配”天性,而非真正的认知理解。
一个值得讨论的问题:是否应该引入神经符号混合架构,用传统逻辑引擎补强推理短板?另外,当前基准测试(如MMLU)能否真正暴露这种偏科?我们是否在“考试型AI”上过度优化,忽略了认知能力的完整性?
行业格局上,这暗示着下一轮竞争焦点将从“更大模型”转向“更均衡的认知框架”。谁能率先解决推理与感知的脱节,谁就能在通用人工智能的赛道上占据先机。