看到这篇关于生成式AI认知能力评估的研究,我第一反应是兴奋,但细想后更多的是困惑。核心发现是当前多模态模型在言语理解和工作记忆上接近人类第98百分位,而知觉推理却低于第1百分位——这种极端分化简直像大脑皮层某个区域被局部切除。

从技术角度看,这个心理测量框架的创新点在于用韦氏智力量表改编任务来评估AI,而非传统的基准测试。但个人经验告诉我,这种“认知架构不均衡”可能源于训练数据的分布偏差:文本类任务(如阅读理解、逻辑推理)在预训练语料中占比极高,而需要空间关系、物理常识的知觉推理任务(如拼图、三维旋转)则严重不足。我甚至怀疑,模型在言语理解上的“天花板”表现是否只是对常见问答模式的过拟合?

想请教大家两个问题:1)如果我们在训练中强行平衡各类认知任务,是否会削弱模型在语言生成上的优势?2)这种知觉推理的“地板效应”是否意味着当前Transformer架构在非符号化感知处理上有根本性缺陷?

从行业趋势看,这一发现可能颠覆“越大越强”的 scaling law 信仰。如果认知进化不均,未来AI发展可能需要转向“认知架构设计”而非单纯堆参数。对于追求AGI的团队,这无疑是个警钟:我们可能正在培养一个会说话但不会看世界的“书呆子AI”。