刚读完arXiv上这篇关于大模型在等价类问题上表现的研究,感觉像被泼了一盆冷水。论文设计了一个极简的长链推理任务:给定随机生成的等价关系,判断两个变量是否相等。这本质上就是考察模型在纯逻辑链上的传递性推理能力,不涉及任何常识或语义干扰。
从技术角度看,关键发现是,即使像GPT-4这样的顶级模型,在变量数量增多(比如超过10个)时,准确率也会显著下降。这说明大模型在维护和操作长程符号关系时存在固有瓶颈。我个人的经验是,在处理类似“祖父的兄弟的儿子”这种多跳关系时,模型经常会在中间步骤“丢失”信息,等价类问题恰好量化了这一现象。
我的疑问是:这种失败到底是源于Transformer注意力机制对长距离依赖的“软性”限制,还是模型压根没有形成真正的“传递性闭包”表征?另外,如果我们引入显式的思维链(CoT)或符号记忆模块,能否弥补这一短板?这或许能推动行业重新思考:对于需要严谨逻辑的领域(如数学证明、代码验证),大模型是否需要与符号推理引擎进行混合架构?