这则资讯揭示了一个关键发现:当前生成式AI在韦氏成人智力量表改编任务中,言语理解和工作记忆飙到98%以上百分位,但知觉推理却跌到1%以下。这种极端分化绝非简单的“强项弱项”问题,而是反映了底层架构的深层次失衡。
从技术角度看,言语理解的高分并不意外——大模型本质上就是基于海量文本的统计模式匹配,对语言结构和常识性知识天然擅长。但知觉推理接近地板,说明模型在空间关系、因果链条的即时重构上存在根本性缺陷。我个人的经验是,让GPT解一道需要多步视觉推理的物理题,它经常给出逻辑通顺但结果荒谬的答案,这就是“言语包装”掩盖了推理空洞的典型表现。
这引出一个关键问题:如果我们要向通用智能迈进,是应该继续堆数据以提升推理能力,还是需要引入新的推理机制(如符号推理或因果模型)?另外,这种认知不均是否意味着当前模型在安全关键场景(如医疗诊断、自动驾驶)中并不可靠——毕竟“能说会道”不等于“真懂”?
从行业格局看,这提醒我们评估AI不能只看基准测试分数。未来,心理测量学框架可能成为模型能力评估的新标准,迫使开发者更关注认知架构的均衡性,而非单纯追求任务性能。大家觉得,这种“偏科”会通过微调改善,还是需要彻底重设计?欢迎分享实测案例。