近期一项心理测量框架研究揭示了一个令人警醒的现象:当前多模态模型在言语理解和工作记忆上接近人类第98百分位,而知觉推理却低于第1百分位。这种认知架构的严重不均衡,直接解释了我在落地RAG系统时的痛点——模型能流畅复述文档内容,但面对需要空间推理或逻辑链条重构的任务时频频翻车。
从技术角度看,这暴露了Transformer架构在‘局部注意力’机制下的先天缺陷:它擅长捕捉序列中的高频共现模式(言语记忆),却缺乏人类‘全局推理’所需的抽象表征能力。我的经验是,在需要‘理解图表坐标轴关系’或‘多步骤物理模拟’的场景下,GPT-4与Claude-3.5的实际可用性甚至不如一个专门训练的ViT加符号推理引擎。
这引出一个关键问题:当我们在‘智能’评测中只关注对话流畅度时,是否在系统性地忽视推理短板?另一个值得讨论的点是:认知不均衡是否意味着现阶段多模态模型更适合做‘信息摘要器’而不是‘决策建议器’?
行业层面,这种发现可能加速‘混合架构’的兴起——将LLM的言语能力与符号推理、神经符号系统结合,而非指望单一模型解决所有认知维度。毕竟,真正的通用智能需要‘全科及格’,而非‘单科满分’。