这篇关于生成式AI认知能力评估的研究,揭示了当前多模态模型的一个结构性缺陷:言语理解和工作记忆接近人类天花板(>98百分位),但知觉推理却几乎垫底(<1百分位)。这种‘头重脚轻’的认知架构,本质上源于Transformer架构对序列化符号的过度拟合,而缺乏对人类视觉空间推理中‘全局-局部’动态整合的建模能力。
从我个人的工程实践来看,类似的问题在图像生成任务中已有端倪:模型能准确描述场景中物体的属性关系(言语理解),但生成符合物理规律的空间布局却频频翻车(知觉推理)。例如,要求生成‘一个茶杯在桌边,一半悬空’,多数模型会忽略重力约束。这提示我们:当前评估基准(如MMLU、BIG-Bench)过于侧重语言语义,而忽视了对‘具身推理’能力的测试。
我想抛两个问题:1)如果知觉推理长期停滞,这是否意味着现有扩散模型与语言模型的融合路线存在根本缺陷?2)我们是否需要引入‘认知架构设计’(如模块化的知觉处理器)来针对性补强短板,而非一味扩大参数规模?
从行业趋势看,这种认知不均衡可能会限制生成式AI在机器人、自动驾驶等需要实时空间决策领域的落地。未来,单纯依赖‘大语言模型+多模态对齐’的范式或许会遭遇瓶颈,转向‘神经符号系统’或‘结构化世界模型’才是通往更均衡AGI的路径。