刚读完这篇关于生成式AI认知能力评估的研究,说实话,结果让我既兴奋又困惑。研究采用改编自韦氏成人智力量表的任务,对多模态模型进行测试,发现它们在言语理解和工作记忆上接近人类第98百分位,而知觉推理却低于第1百分位——这种极端不均衡的认知架构,揭示了当前大模型的核心短板。

我个人的实践体验也印证了这一点:用GPT-4处理复杂逻辑推理任务时,比如多步数学推导或空间关系推断,它经常给出看似合理但实际有漏洞的答案;而让它总结文档或复述事实,表现却出奇精准。这说明模型可能在训练过程中过度优化了语言模式匹配,而非真正理解因果关系。我的困惑是:这种“认知偏科”是Transformer架构的固有限制,还是训练数据分布和预训练目标(如下一词预测)导致的路径依赖?

进一步想,如果我们想让模型在知觉推理上接近人类水平,是否需要引入结构化推理模块或符号规则,还是单纯靠更大的数据和参数就能突破这层瓶颈?另外,这种评估方法能否指导我们设计更均衡的多模态训练策略,比如在视觉-语言联合任务中强化空间关系学习?

从行业趋势看,这种认知不均衡意味着通用AI还有很长的路要走。短期应用(如问答系统)已足够强大,但真正需要推理能力的领域(如科学发现、自动化工程)仍存在根本局限。我们是否应该调整更通用的智能评估基准,避免被“高分低能”的模型误导?期待大家的实践经验分享。