看到这个心理测量框架的研究,我第一反应是兴奋——终于有人用标准化的人类智力评估工具来审视AI的认知架构了。核心数据很震撼:在韦氏智力量表的改编任务中,主流多模态模型在言语理解和工作记忆上超过98%的人类水平,但知觉推理却掉到1%以下。这不仅仅是“偏科”,而是大脑皮层和顶叶功能的割裂。

从实践角度看,我自己的使用经验也印证了这一点。去年我用某个多模态模型处理复杂图表推理时,它能把文字描述解释得头头是道,但面对空间旋转或非语言模式识别,输出经常荒谬到让人怀疑是随机生成。这种“言语满分、知觉弱智”的割裂,让我怀疑当前架构是否本质上就是个巨大的统计语言模型,其所谓的“推理”只是对训练数据中语言模式的深度拟合。

我特别好奇:如果这种认知不均衡是Transformer架构的固有限制,那么引入神经符号方法或专门的空间推理模块能否弥补?另外,研究者用的韦氏量表改编任务是否公平?毕竟AI的“感官”是像素和token,和人类的视知觉系统完全不同。

从行业趋势看,这暗示着AGI的路线可能需要更关注认知架构的完整性,而非单纯堆数据或参数。如果下一代模型只在语言维度上继续内卷,真正的通用智能可能永远是水中月。