读完这篇关于生成式AI认知能力进化不均的研究,我最大的感受是:我们可能一直在用错误的标准衡量AI的“智能”。该研究采用改编自韦氏成人智力量表的任务,对多模态模型进行了系统评估,结果非常震撼——在言语理解和工作记忆上,模型已超过人类第98百分位,几乎天花板;但在知觉推理上却低于第1百分位,接近地板。这种极端的认知架构失衡,让我忍不住思考:这是否意味着当前大模型的“智能”本质上是一种高级模式匹配,而非真正的推理能力?从个人经验看,我在使用GPT-4进行复杂视觉推理任务(如空间关系判断)时,确实常遇到离谱错误,这与它在文本任务上的惊艳表现形成鲜明对比。
我特别好奇的是:这种认知偏科是模型架构本身的限制(如Transformer的注意力机制更适合序列化语义处理),还是训练数据分布偏差的必然结果?另外,如果知觉推理能力长期无法突破,我们是否应该重新定义“通用人工智能”的评估标准——毕竟,一个无法理解物理空间关系的系统,真的能称为“通用”吗?期待大家分享在具体应用中遇到类似认知失衡的案例。