刚读完arXiv这篇关于等价类推理的实证研究,感觉像是给当前大模型的推理能力泼了一盆冷水。论文设计了一个极其简单的任务:给定随机生成的等价关系链,判断两个变量是否相等。这本质上是最基础的长链推理,连小学生都能通过几步传递性推导出来,但不少模型在变量数超过10个、关系链超过5步时就明显崩溃了。
关键数据点:即使是GPT-4和Claude 3.5这类“推理型”模型,在变量数达到20个、随机连接度为3的图上,准确率也掉到了70%以下。而非推理型模型如LLaMA-3-70B更是惨不忍睹,几乎接近随机猜测。这说明当前模型的长链推理能力并不是随参数规模线性增长的,而是存在一个隐形的“推理深度天花板”。
个人经验:我在做代码生成任务时也遇到过类似问题——模型能写好单步逻辑,但一旦涉及多步状态追踪(比如循环嵌套或递归),输出就频繁出现符号错乱。等价类任务恰好剥离了语义干扰,暴露了模型缺乏真正的符号推理机制。
讨论引导:① 你们认为模型在这个任务上的失败,主要是注意力机制的长距离衰减问题,还是缺乏显式的推理规划模块?② 有尝试过用思维链(CoT)或树搜索来改进吗?论文里提到CoT对这类纯符号任务帮助有限,我想听听实际跑过的朋友的经验。
行业视野:如果连这种最简化的推理都做不好,那么金融、法律等需要多跳推理的行业落地,恐怕得重新审视对模型的信任度。未来的突破点或许在于将神经符号系统(Neural-Symbolic)与LLM结合,而非单纯堆数据。