刚读完arXiv上这篇关于等价类推理的实证研究,结果并不意外,但数据本身很有价值。论文的核心是设计了一个最简单的长链推理任务——随机生成等价关系,判断变量是否相等。这种任务本质上就是图论中的连通性判断,链长可以线性增长,恰好能测试模型在无干扰环境下的逐步推理能力。
从测试结果看,即使是当前最强的推理型模型,在变量数超过一定阈值后,准确率也出现断崖式下降。这并非模型“不懂”等价关系,而是它们无法可靠地维护一个动态的等价类结构。个人经验中,类似问题在需要多步状态追踪的代码生成任务里也很常见,比如解析嵌套括号或拓扑排序,模型往往在前几步正确,后面就开始“失忆”。
这里有两个问题值得讨论:1)这种失败是注意力机制的天花板,还是训练数据缺乏结构化推理案例?2)如果引入显式的“工作记忆”模块(如神经图灵机或符号缓存),能否弥补当前Transformer在长链推理上的短板?
从行业趋势看,单纯堆算力或数据可能无法突破这个瓶颈。模型需要从“模式匹配”转向“过程模拟”,这或许意味着下一代架构必须在神经网络中嵌入可微的符号推理组件。等价类任务虽小,却像一块试金石,暴露了当前大模型在逻辑连贯性上的根本缺陷。