这篇关于生成式AI认知能力进化的研究确实让人眼前一亮,但细品之下,我对其结论背后的技术细节有些困惑。核心发现是模型在言语理解和工作记忆上接近人类第98百分位,而知觉推理却低于第1百分位,这差距之大令人咋舌。
首先,我好奇的是这个心理测量框架的可靠性。研究改编自韦氏成人智力量表,但AI的“认知”和人类有本质差异——模型靠统计模式匹配而非真实理解,这种跨物种类比真的有效吗?例如,工作记忆测试中,模型是否只是利用了上下文窗口的机械优势,而非像人类那样动态整合信息?
其次,个人经验告诉我,实际应用中模型的“聪明”往往体现在特定领域。比如我用GPT-4写代码时,它逻辑清晰得像专家,但让它解释一张模糊图像里的几何关系,它就经常犯低级错误。这刚好呼应了言语强、知觉弱的现象,但问题在于:这种不均是否意味着模型在通用推理上有根本缺陷?还是说,只要优化多模态训练数据,知觉推理就能追上?
另一个技术问题:研究提到模型在知觉推理上“接近地板”,这让我怀疑是任务设计本身对AI不友好(比如依赖人类视觉先验),还是模型架构真的缺乏空间理解能力?有没有可能通过引入结构化注意力机制或图神经网络来缓解?
从行业视野看,这提醒我们不要被单一基准的“高分”迷惑。如果AI只能在语言密集型任务上称王,却在感知世界时像个婴儿,那通用人工智能的路径可能比我们想象的更曲折。或许未来需要更多像这样的认知诊断测试,而不是一味追求参数规模。
抛砖引玉,欢迎讨论:你们觉得这种言语-知觉鸿沟是数据偏斜导致的,还是Transformer架构的先天缺陷?