最近看到一篇关于生成式AI认知能力评估的研究,用韦氏成人智力量表改编任务测试多模态模型,结果让我既兴奋又困惑。模型在言语理解和工作记忆上超过了人类第98百分位,但知觉推理却不到第1百分位——这差距大到有点离谱。
从技术角度看,这种不均可能源于训练数据和架构设计。模型在语言任务上“刷题”太多,强化了模式匹配和记忆能力,但推理和空间感知这类需要因果建模的任务,缺乏类似人类的感知基础。我个人经验是,用GPT处理文本总结时几乎零失误,但让它理解一张复杂图表或进行多步逻辑推断时,经常出现“一本正经地胡说八道”。这验证了研究结论:当前的认知架构更像是“偏科生”,而非通用智能。
我的疑问是:这种能力失衡是训练策略的副作用,还是Transformer架构本身的局限?比如,注意力机制擅长捕捉统计相关性,但可能天然不擅长处理需要跨模态推理的知觉任务。另外,如果未来要平衡这些能力,是否需要引入类似人类发育阶段的“认知训练”,比如先建立感知模型再叠加语言层?
从行业影响看,这提醒我们别被单一基准的“高分”迷惑。AI在客服、写作等语言密集型场景可能已接近实用,但在自动驾驶、机器人等需要实时推理和空间理解的领域,距离“通用”还很远。与其追求全能,不如先用针对性评估为模型“查漏补缺”。大家觉得,这种不均衡是暂时的数据问题,还是架构的根本缺陷?