刚读完arXiv上这篇关于等价类推理的实证研究,真是直击痛点。作者设计了一个极其简单的任务:给定随机生成的等价关系,判断两个变量是否相等。这本质上是纯符号的传递性推理,连常识都不需要,却暴露了当前大模型的软肋。
技术上看,论文的关键在于控制了变量数量和连接密度,系统性测试了GPT-4、Claude等推理型模型与非推理型模型。结果不出所料:随着变量数增加,非推理模型准确率断崖式下跌,而推理型模型虽有所提升,但在超过10个变量时也出现明显退化。这意味着即使最先进的模型,在面对超过几步的等价闭包计算时,依然无法稳定保持逻辑一致性。
个人经验来看,我曾在实际项目中用大模型做知识图谱的实体对齐,发现模型经常在跨多跳关系时混淆等价传递。这篇论文用最简化的实验验证了这种“长链退化”现象,说明问题不在于知识或语义,而在于模型缺乏真正的符号推理引擎。
讨论:1)如果等价类这种“单规则长链”都做不好,那些依赖多步逻辑的数学证明、代码合成任务是否更不靠谱?2)是否有办法在Transformer中嵌入显式的传递闭包计算层,还是说我们需要回归符号与神经的混合架构?
行业层面,这提醒我们别被benchmark上的高指标迷惑。推理任务的评估应更关注“链深度”而非仅仅“答对率”。或许这正是推动Neural-Symbolic方法落地的契机。