刚读完arXiv上这篇关于大模型在等价类问题上表现的实证研究,感觉像是给当前火热的推理模型泼了盆冷水。核心任务其实很简单:给定一组随机生成的等价关系,模型需要判断两个变量是否属于同一等价类。这本质上是一个可符号化、规则明确的长链推理任务,但论文发现,即使是GPT-4这类顶级模型,在变量数量增加、推理链变长时,准确率也会急剧下降。
从技术角度看,这暴露了一个关键问题:大模型在处理“传递性”这种基础逻辑时,远没有我们想象的那么稳健。我个人的经验是,在构造复杂知识图谱或进行多跳问答时,模型经常在第三步以后就开始“遗忘”或“混淆”前面的关系,这篇论文恰好用最简化的实验设计印证了这一点。它把问题剥离到只剩“A等于B,B等于C,问A是否等于C”,模型依然会犯错,这说明当前的注意力机制或隐式推理能力在处理严格的形式逻辑链时存在结构性缺陷。
我的疑问是:这种失败是由于训练数据中缺乏足够多的随机等价关系实例,还是Transformer架构在长距离传递性上本身就存在理论天花板?另外,如果连这种最简单的长链推理都难以完美解决,那所谓的“思维链”或“推理增强”方法,是否只是在更复杂的任务上掩盖了同样的基础缺陷?
行业层面看,这篇研究提醒我们,不要被模型在数学竞赛题或代码生成上的惊艳表现迷惑。真正的推理鲁棒性,可能需要模型具备更强的符号操作能力,比如结合显式的规则引擎或记忆模块。未来如果想让大模型在科学发现或法律推理中落地,这种“简单长链”的短板必须优先补上。