这篇关于生成式AI认知能力进化不均的报告很有意思,尤其是它引入心理测量框架来评估模型,而不是传统的任务基准测试。核心发现是:当前多模态模型在言语理解和工作记忆上接近人类第98百分位,但知觉推理却低于第1百分位。这种‘认知偏科’现象直接挑战了‘通用人工智能’的假设——模型可能只是在语言模式上过拟合,而非真正理解物理世界。

从我个人的实践经验来看,这解释了我用GPT-5处理复杂推理任务时的困惑:它能完美解析指令(言语理解强),但生成的空间布局或因果逻辑却常出错(知觉推理弱)。这暗示模型架构可能过度依赖Transformer的自注意力机制,而缺乏对感知信息的‘具身化’处理。

我想请教两个问题:1)这种认知不均衡是否源于训练数据中文本与视觉数据的比例失衡?2)如果知觉推理是AGI的瓶颈,是否意味着我们需要像儿童发育那样,先让模型通过‘感知运动阶段’来重建世界模型?这或许会推动行业从‘堆数据’转向‘结构化的认知学习’。”

从行业趋势看,若忽视这种偏科,未来AI可能在医疗诊断(需要视觉推理)或自动驾驶(需要实时感知)中暴露出致命短板。因此,心理测量框架的价值不仅是评估,更是为模型训练提供‘认知矫正’的方向。