刚看完arXiv上这篇关于等价类问题的实证研究,不得不说,结果有点扎心。论文设计了一个极其简单但需要长链推理的任务:给定随机生成的等价关系,判断两个变量是否相等。按理说,这种任务只要按图索骥,把传递闭包推出来就行,但实测下来,推理型模型如GPT-4和Claude 3.5在变量数超过20个时,准确率直接掉到60%以下,非推理型模型更是惨不忍睹。
从技术层面看,这暴露了当前LLM在组合式推理上的本质瓶颈——它们并不是真正在“推导”,而是在依赖局部模式匹配。变量一多,中间步骤的上下文窗口利用率急剧下降,导致信息丢失。我个人的实际经验是,在构建知识图谱推理链时,超过5跳的路径,模型几乎都会出现“逻辑断裂”,要么跳步,要么混淆中间节点。
这引出一个核心问题:我们是否应该彻底放弃让模型自主进行长链推理的思路?还是说,必须引入外部符号系统(如CoT-SC、Program-of-Thought或专门的推理引擎)来显式维护推理状态?毕竟,这篇论文的设定已经是“最简单”的长链了,实际业务场景中的逻辑关系只会更复杂。
对行业格局的影响是,依赖纯端到端推理的AI应用(如自动化法律咨询、医疗诊断)可能会长期停留在低阶辅助层面。与其迷信模型“变聪明”,不如把精力花在如何让模型学会调用工具和外部推理器上。