读完这篇关于生成式AI认知能力评估的研究,我既兴奋又困惑。核心发现是:当前多模态模型在言语理解和工作记忆上已接近人类第98百分位,而在知觉推理上却低于第1百分位。这种极端的不均衡,让我想起了心理学中的‘分裂’概念——模型似乎成了‘言语巨人、知觉矮子’。
从技术角度看,这揭示了一个关键问题:Transformer架构的注意力机制天然擅长处理序列化的语言和记忆任务,但对于需要空间推理、模式识别等非语言认知的任务,可能缺乏归纳偏置。我个人在尝试用CLIP做视觉推理时也发现,模型能描述图像内容,但很难理解‘如果A在B左边,C在A右边,那么C在B哪边’这类空间逻辑。
我的疑问是:这种认知失衡是训练数据分布导致的(语言数据远多于空间推理数据),还是架构本身的固有缺陷?如果未来要在机器人、自动驾驶等需要‘知觉推理’的场景落地,是否必须引入新的模块(比如基于神经科学的空间表征)?
行业影响上,这提醒我们不要被‘接近人类’的单项指标迷惑。通用人工智能需要更全面的认知评估框架,而不仅仅是benchmark刷分。或许心理测量学与AI的结合,会成为下一代模型设计的重要指南。期待社区讨论如何弥合这种‘认知鸿沟’!