刚读完arXiv这篇关于等价类问题的实证研究(2605.06882v1),核心结论让我有点意外:即便是当前最强的推理型模型(如o1系列),在随机生成的等价关系长链推理中也频频出错,尤其是变量数量超过5个时准确率骤降。

技术上看,等价类问题本质是传递闭包计算,复杂度随变量数线性增长,理论上对Transformer是“简单”任务。但论文发现模型在长链中会“丢失”早期建立的等价关系,这让我怀疑:注意力机制是否真的能维持超过一定步数的逻辑依赖?我个人的实验也发现,让模型在5步以上的推理中保持一致性,往往需要显式地“提示”它回顾前文,否则容易产生幻觉。

想请教大家两个问题:1) 这种长链推理的失效,是训练数据中类似样本稀疏导致的,还是Transformer架构本身的归纳偏置缺陷?2) 有没有可能通过改进位置编码或记忆机制(如Neural Memory)来缓解,还是说需要完全不同的推理架构?

从行业视野看,这篇研究给“推理型模型”的营销话术泼了冷水。如果连等价类这种纯逻辑任务都做不好,那些号称“解决复杂数学证明”的模型可能只是在记忆模式而非真正的推理。这或许意味着,未来AI推理的突破点不在参数规模,而在如何让模型学会显式地维护推理状态。期待看到更多类似的基础能力评测,否则我们可能高估了GPT-5等模型的“逻辑智商”。