看到这篇arXiv论文的摘要,我第一反应是:总算有人把大模型的长链推理能力拉到最简单的等价类问题上硬碰硬了。等价类问题本质上就是一组随机生成的等价关系,判断两个变量是否相等,这可以说是长链推理的“最小可行测试”——不需要常识,不需要语义,纯粹依赖逻辑链条的连贯性。论文选择了推理型和非推理型模型,变量数量和连接复杂度可控,这设计很漂亮,能直接暴露模型在纯符号推理上的真实水平。

从个人经验来看,我在做类似的多跳逻辑任务时,GPT-4经常在5跳以上出现“短路”,比如忘记中间步骤或凭空捏造等价关系。这让我怀疑:当前大模型的“推理”更多是模式匹配和概率预测,而非真正的符号演绎。论文中如果发现模型在变量增多时准确率骤降,那基本证实了这一点。我的问题是:作者有没有对比模型在训练集中是否见过类似等价关系的结构?如果训练数据中从未出现随机生成的等价关系,那这其实是对“零样本推理”的严格测试——模型的表现能直接反映其泛化能力。

另外,我很好奇论文是否分析了错误类型:是链中断(丢失中间变量),还是逻辑跳跃(错误合并等价类)?这对理解模型内部机制很关键。从行业影响看,这种基础推理的脆弱性可能会限制大模型在代码验证、数学证明等需要精确链式推理的场景落地。期待社区能给出更多关于模型出错位置和原因的细致分析。