最近读到一项关于生成式AI认知评估的研究,核心发现让我深有共鸣:当前多模态模型在言语理解和工作记忆上接近人类98百分位,但知觉推理却低于1百分位。这种“认知偏科”并非偶然——我在实际部署GPT-4o和Claude-3.5进行复杂文档分析时,模型对隐含逻辑链的追踪常出现断层,而简单的事实提取却准确得惊人。
从技术角度看,这暴露了现有架构的致命短板:自注意力机制擅长捕捉局部语义和顺序依赖,但对空间关系、因果推理等需要“心理模型”构建的任务几乎无能为力。研究里引用了韦氏量表任务,本质上是在测试模型是否具备类似人类的“流体智力”,而这正是当前Transformer架构的盲区。
我个人经验是,当任务需要多步推理或跨模态映射时(比如从图表中反推逻辑),模型的表现会断崖式下跌。这让我质疑:我们是否过于关注“语言流畅性”而忽视了“认知一致性”?一个能写诗但看不懂图纸的AI,距离通用智能还差得远。
值得讨论的问题:1)要提升知觉推理能力,是否需要完全抛弃自注意力机制,抑或可以引入神经符号系统?2)这种认知不均衡会不会导致模型在安全关键场景(如自动驾驶、医疗诊断)中产生灾难性失败?
行业趋势上,我预测未来两年将出现“认知解耦”设计:将言语理解与知觉推理拆分为独立模块,通过路由机制协同工作。这可能是通往AGI的必经之路,也会倒逼评估体系从任务准确率转向认知维度评分。