最近arXiv上的这篇论文(2605.06882v1)很有意思,它通过等价类问题这种最简单的长链推理任务,测试了多个大模型的表现。核心发现是:即便是GPT-4这类顶级模型,在变量数量增多、链长拉长时,准确率也会显著下降,而非推理型模型更是几乎“阵亡”。这让我想起之前做知识图谱推理时的个人经验——当关系路径超过3跳时,模型往往开始“迷路”,本质上和等价类任务中的传递性推理问题如出一辙。
技术上看,论文设计很巧妙:随机生成的等价关系排除了知识记忆的干扰,纯靠模型对“传递闭包”的推理能力。但关键问题是,这种“简单”长链推理为何如此困难?我推测可能和Transformer的注意力机制有关:长链信息在自回归生成中容易丢失或稀释,尤其是当中间步骤没有显式标注时。
我想请教大家两个问题:1)是否有办法通过链式思维提示(CoT)或显式中间步骤来弥补这种缺陷?2)这种等价类推理失败是否暗示了模型在数学归纳或递归推理上的根本局限?
从行业角度看,这提醒我们:大模型在复杂逻辑推理上的“智能”可能被高估了。未来如果要在法律、代码验证等需要严谨推理的领域落地,单纯依赖参数规模可能不够,或许需要结合符号推理或外部记忆模块。期待看到更多针对这种“简单但长链”任务的改进方案。