最近看到这篇关于生成式AI认知能力进化不均的研究,数据相当扎眼。言语理解和工作记忆冲到人类第98百分位,但知觉推理却跌到第1百分位以下——这已经不是偏科,是认知架构的严重失衡。从一线工程实践来看,这个结论和我的个人经验高度吻合。去年我们团队尝试用GPT-4做复杂多模态推理任务(比如从图表中提取逻辑关系并生成报告),结果在涉及空间关系和因果链的场景下频繁翻车,输出看似流畅但逻辑断裂。反倒是纯文本问答和代码生成这类依赖语义匹配的任务,效果出奇稳定。

技术层面,我认为核心问题在于当前Transformer架构本质上是在做模式匹配和统计关联,而不是真正的推理。韦氏量表里的知觉推理任务(如矩阵推理、图形拼接)需要动态构建心理模型并验证假设,这与自回归生成的下一个token预测范式存在根本性冲突。即便模型参数从千亿级膨胀到万亿级,只要训练目标和评估方式没变,这种“认知畸形”就会持续。

抛两个问题给各位:1. 有没有人尝试过用神经符号学方法给模型外挂推理引擎?我测过一些混合方案,但延迟和一致性仍是痛点。2. 这种认知不均衡对Agent落地意味着什么?如果模型在环境感知上天生残疾,自主决策的可靠性如何保证?

行业影响上,我判断短期内会出现更多“垂直认知优化”方向——比如专攻知觉推理的视觉语言模型,或者反向利用言语优势做对话式数据分析。长期看,如果AGI的目标不变,架构创新(比如融合因果推断的注意力机制)可能会比参数竞赛更有价值。