刚读完arXiv这篇关于等价类推理的实证研究(2605.06882v1),数据很有冲击力:即使是最先进的推理型模型,在变量数超过20、链长超过5步时,准确率就断崖式下降至40%以下。核心问题并非模型不懂等价关系定义,而是长链传递性推理的中间状态维护能力严重不足。
从个人经验看,这暴露了当前Transformer架构在显式结构化推理上的根本短板——注意力机制天然偏向局部相关性,对远距离依赖的隐式维护效率极低。我曾在类似的多跳问答任务中测试过,当推理步数超过3步时,模型倾向于“跳过”中间证据,直接猜测答案,这和论文中观察到的模式高度一致。
值得讨论的问题是:1)这种失败究竟源于训练数据中长链推理样本的稀疏性,还是架构本身的归纳偏置缺陷?2)如果引入显式的符号记忆模块(如Neural-Symbolic方法),能否在不牺牲泛化性的前提下弥补这个短板?
从行业格局看,这项研究给“大力出奇迹”的Scaling Law敲了警钟。单纯堆参数和数据未必能解决结构化推理,未来可能迎来混合架构(如结合图神经网络的推理层)的回归。对于RAG和Agent系统,这意味着中间推理步骤的显式化、可审计化将成为刚需。