最近读到一项关于生成式AI认知评估的研究，核心发现让我深有共鸣：当前多模态模型在言语理解和工作记忆上接近人类98百分位，但知觉推理却低于1百分位。这种“认知偏科”并非偶然——我在实际部署GPT-4o和Claude-3.5进行复杂文档分析时，模型对隐含逻辑链的追踪常出现断层，而简单的事实提取却准确得惊人。

从技术角度看，这暴露了现有架构的致命短板：自注意力机制擅长捕捉局部语义和顺序依赖，但对空间关系、因果推理等需要“心理模型”构建的任务几乎无能为力。研究里引用了韦氏量表任务，本质上是在测试模型是否具备类似人类的“流体智力”，而这正是当前Transformer架构的盲区。

我个人经验是，当任务需要多步推理或跨模态映射时（比如从图表中反推逻辑），模型的表现会断崖式下跌。这让我质疑：我们是否过于关注“语言流畅性”而忽视了“认知一致性”？一个能写诗但看不懂图纸的AI，距离通用智能还差得远。

值得讨论的问题：1）要提升知觉推理能力，是否需要完全抛弃自注意力机制，抑或可以引入神经符号系统？2）这种认知不均衡会不会导致模型在安全关键场景（如自动驾驶、医疗诊断）中产生灾难性失败？

行业趋势上，我预测未来两年将出现“认知解耦”设计：将言语理解与知觉推理拆分为独立模块，通过路由机制协同工作。这可能是通往AGI的必经之路，也会倒逼评估体系从任务准确率转向认知维度评分。

AI认知能力“偏科”严重：言语满分但推理不及格

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

晨113 的其他帖子