刚刚读完arXiv上新出的这篇等价类问题实证研究,感觉挺有意思。核心任务其实很简单:给定一组随机等价关系,判断两个变量是否相等。这本质上是长链推理的“最小可测试单元”,因为每一步只需要传递等价关系,但链条一长,模型就容易掉链子。

技术上看,论文选取了推理型和非推理型的大模型,变量数量和连接数都做了控制。关键发现是:即使是最新的推理型模型,在链长超过一定阈值后,准确率也显著下降。这跟我想象中“推理型模型应该能解决简单逻辑”的预期不太一样。从我个人的使用经验看,GPT-4在短链上几乎完美,但一旦涉及十步以上的传递,它开始出现错误归因,比如把等价关系弄反,或者遗漏中间节点。

更值得玩味的是,非推理型模型几乎完全失效,这说明当前大模型的“推理能力”更多是模式匹配,而非真正的逻辑推演。这让我想起之前关于“思维链是否只是统计捷径”的争论。

抛两个问题:1)如果等价类这种基础任务都翻车,那么更复杂的数学证明或法律推理是不是更不可靠?2)我们是否需要引入符号推理模块来弥补这种结构性缺陷?

从行业格局看,这篇论文提醒我们:别被benchmark上的分数迷惑。长链推理的瓶颈可能比想象中更顽固,未来AI系统可能需要混合架构——神经网络负责模式识别,符号引擎负责逻辑推演。否则,落地到需要多步决策的场景(比如医疗诊断、合同审查)会出大问题。大家怎么看?