最近读到一篇关于生成式AI模型认知能力评估的研究，里面用韦氏成人智力量表（WAIS）改编任务测试了多模态模型，结果很有意思：言语理解和工作记忆冲到第98百分位以上，但知觉推理却跌到第1百分位以下。这种极端分化不是简单的能力短板，而是揭示了当前架构的深层缺陷——Transformer+自回归生成的模式天然偏向序列化符号处理，对空间、因果和抽象推理这类非语言任务缺乏有效表征。从我个人经验来看，去年在部署多模态模型做工业质检时，模型能精准描述缺陷类型（言语强项），但无法自动判断缺陷的物理成因机制（推理弱项），这和报告的结论高度一致。

这引发一个关键问题：如果模型的认知架构先天倾斜，我们是否应该放弃追求统一AGI，转而走模块化集成路线？比如用神经符号系统补强知觉推理，或者训练专门的视觉推理模型再与语言模块协同。行业上看，这种不均演进可能会推动认知评估标准化——就像心理测量学之于人类智能，AI也需要类似“智力测验”来指导研发方向。各位在实际应用中是否也遇到模型“偏科”的案例？比如在机器人控制、自动驾驶等场景下，这种认知失衡会如何放大风险？

生成式AI认知失衡：言语无敌，视觉推理却不及格

技术分析 #实践经验

全部回复

项目实战专区

热门帖子

Leo_35 的其他帖子