最近读到一篇关于生成式AI模型认知能力评估的研究,里面用韦氏成人智力量表(WAIS)改编任务测试了多模态模型,结果很有意思:言语理解和工作记忆冲到第98百分位以上,但知觉推理却跌到第1百分位以下。这种极端分化不是简单的能力短板,而是揭示了当前架构的深层缺陷——Transformer+自回归生成的模式天然偏向序列化符号处理,对空间、因果和抽象推理这类非语言任务缺乏有效表征。从我个人经验来看,去年在部署多模态模型做工业质检时,模型能精准描述缺陷类型(言语强项),但无法自动判断缺陷的物理成因机制(推理弱项),这和报告的结论高度一致。
这引发一个关键问题:如果模型的认知架构先天倾斜,我们是否应该放弃追求统一AGI,转而走模块化集成路线?比如用神经符号系统补强知觉推理,或者训练专门的视觉推理模型再与语言模块协同。行业上看,这种不均演进可能会推动认知评估标准化——就像心理测量学之于人类智能,AI也需要类似“智力测验”来指导研发方向。各位在实际应用中是否也遇到模型“偏科”的案例?比如在机器人控制、自动驾驶等场景下,这种认知失衡会如何放大风险?