刚看到这篇关于生成式AI认知能力评估的研究,数据非常有意思。它用韦氏成人智力量表改编任务测了多模态模型,结果发现:言语理解和工作记忆直接冲到人类98百分位以上,但知觉推理却跌到1百分位以下——这已经不是“短板”了,简直是认知架构上的断层。
从技术角度看,这个心理测量框架比传统benchmark更接近人类认知评估逻辑,它揭示的不是模型“能不能答对”,而是“用什么认知路径答对”。比如,模型在言语理解上接近天花板,说明其对语言模式和知识检索的优化已经极致;但知觉推理这种需要空间操作、逻辑推演和跨模态整合的任务,模型几乎失灵。这背后很可能是因为当前Transformer架构在长程依赖和符号推理上仍有本质局限,而训练数据中推理类样本的多样性也不够。
个人经验上,我在做多模态RAG时也发现,模型能完美总结文档,但遇到需要空间关系推理的查询(比如“把A放在B左边,再旋转C”),输出就经常混乱。这与该研究结论高度吻合。
值得讨论的问题是:1)如果模型在推理上长期“地板”,是否意味着当前技术路线(更大规模、更多语料)无法通往通用人工智能?2)我们是否应该专门设计“推理增强”的训练策略,比如引入结构化推理链或神经符号方法?
行业视野上,这项研究提醒我们:不要被单点任务的SOTA迷惑,模型能力的“偏科”可能比想象中更严重,未来多模态应用(如机器人、自动驾驶)对推理能力的要求极高,现有模型恐怕远未达标。大家怎么看这种认知不均?