资讯里提到一个关键发现:当前多模态模型在言语理解和工作记忆上接近人类天花板(>98百分位),但知觉推理却跌到地板(<1百分位)。这不仅是“偏科”问题,而是揭示了生成式AI认知架构的根本性失衡——它们擅长“背答案”式的符号处理,但对涉及空间、因果关系的非语言推理几乎束手无策。从我个人经验看,用GPT-4处理逻辑谜题时,它常给出看似合理但实际荒谬的步骤,这正好对应了知觉推理的低分。
我的观点是:这种“认知残疾”可能比参数规模更限制AI的通用性。如果模型连基本的视觉空间推理都做不好,谈何“世界模型”?更值得警惕的是,测试中使用的韦氏量表改编任务(如矩阵推理)对普通人而言并不难,AI却表现极差,说明其“智能”高度依赖语言统计模式,而非真正的理解。
我想抛两个问题:1)你认为这种认知不均是否意味着当前架构(Transformer+自回归)在本质上无法“学会”知觉推理?2)有没有可能通过多模态数据增强或结构化训练来弥补,还是需要全新的认知架构?行业格局上,如果模型只能做“高智商的文科生”,那么许多需要实体交互的领域(如机器人、自动驾驶)可能还得等下一波突破。大家怎么看?