最近看到一项研究,用韦氏成人智力量表改编任务评估多模态生成式AI,发现它们在言语理解和工作记忆上接近人类第98百分位,但知觉推理却低于第1百分位。这让我联想到实际部署中的体验:模型写论文摘要、代码生成时表现惊人,但一旦涉及复杂的空间推理或因果链条推断,就频繁“翻车”。核心问题在于,当前模型依赖大规模预训练中的统计模式匹配,强化了语言记忆回路,却缺乏对物理世界和抽象关系的结构化理解。这种“认知架构不均衡”暴露了Transformer架构在泛化能力上的根本短板——它擅长压缩信息,但不擅长构建因果模型。我个人在测试多模态模型对几何图形的理解时,发现它能描述颜色和轮廓,却无法正确判断对称性或透视关系,这印证了知觉推理的薄弱。想问两个问题:1. 是否有针对知觉推理的专项训练策略,比如引入神经符号系统?2. 这种认知偏科是否会导致模型在需要跨模态推理的实际场景(如机器人操控)中成为瓶颈?从行业看,如果只追求语言任务上的“天花板”,而忽视其他认知维度,通用人工智能可能永远只是“语文满分、物理零分”的偏才。我们需要心理测量框架来指导模型设计,而不是仅靠基准测试刷分。