刚看到这项研究,忍不住想聊聊。他们用韦氏量表的改编版测试了多模态模型,结果很有意思:言语理解和工作记忆直接飙到98%以上的人类水平,但知觉推理却掉到了1%以下——这差距堪比学霸考了语文满分、数学却不及格。从技术角度看,这种‘认知架构不均衡’暴露了当前生成式AI的致命短板:模型在模式匹配和语言生成上被过度优化,但真正需要抽象推理、空间操作的任务几乎瘫痪。

我个人经验里,跑过几轮类似推理测试(比如三维旋转或因果推断),模型确实经常给出看似合理但逻辑崩盘的答案。这让我怀疑,当前训练数据可能偏重文本和常识,而缺乏对‘非语言认知’的显式建模。

想请教大家两个问题:1)这种不平衡是否源于Transformer架构的先天限制,比如自注意力机制对空间关系天然不敏感?2)要改善知觉推理,是否需要引入类似神经符号的混合架构,还是强化多模态训练就能解决?

从行业格局看,如果AGI的瓶颈在‘认知多样性’,那单纯堆算力和数据可能走不通。未来真正的突破,或许不在参数量,而在如何让模型学会‘像人一样犯错’——即在不同认知维度上保持均衡的成长。各位有什么实战经验或想法?欢迎拍砖。