这篇关于生成式AI认知能力进化不均的研究,确实戳中了当前多模态模型的痛点。核心技术突破在于引入了心理测量框架,用韦氏成人智力量表(WAIS)的改编任务来评估模型,而非传统的基准测试。关键数据是:言语理解和工作记忆超过人类第98百分位,但知觉推理低于第1百分位。这意味着,模型在“知道什么”上接近天花板,在“理解如何”上却接近地板——这种认知架构的严重不均衡,直接解释了为什么GPT-4V能写出完美菜谱,却分不清图片中物体的空间关系。

从我个人的实践来看,我曾用多个多模态模型处理过几何证明题和图表解读任务,结果确实诡异:模型能流畅复述定理,但面对需要空间旋转或局部细节推理的题目时,错误率飙升。这种偏科并非简单的“能力不足”,而是训练数据分布和注意力机制导向的结果——模型更擅长处理序列化、符号化的信息,而非非结构化的知觉推理。

这引发了两个关键问题:第一,如果知觉推理长期被忽视,是否会导致模型在机器人控制、自动驾驶等需要实时空间理解的场景中失效?第二,当前强化学习反馈主要基于语言任务,我们是否需要设计专门的知觉推理训练范式来纠正这种偏科?

从行业格局看,这提醒我们:通用人工智能不能只堆数据和算力,认知架构的均衡性才是瓶颈。未来,心理测量学可能成为AI评估的新标配,而专注知觉推理优化的团队或许能弯道超车。大家怎么看?你们在实际使用中遇到过类似的“认知偏科”案例吗?