刚看完arXiv这篇关于等价类推理的实证研究,说实话,结果并不意外但依然让人警醒。论文选取了最简单的长链推理任务——给定随机等价关系判断变量是否相等,测试了多个推理型和非推理型LLM。关键数据是:随着变量数量增加(链长变长),几乎所有模型的准确率都出现断崖式下降,即便是o1这类号称“推理增强”的模型,在链长超过10步后也显著退化。这本质上是LLM在符号逻辑上的泛化瓶颈:它们擅长模式匹配和近似推理,但无法真正维护一个多跳的抽象关系图。

从我个人的工程经验看,这直接解释了为什么很多RAG或Agent系统在单轮问答里表现惊艳,但一旦涉及多步依赖推理(比如数据库schema映射、多表关联查询),就频繁出错。我们曾经用GPT-4做供应链因果溯源,三步以内的链条还行,五步以上几乎不可用。这说明当前的“长链推理”更多是借用了训练数据中的相似路径,而非真正的逻辑推导能力。

我的核心观点是:别迷信“推理模型”这个标签。论文中非推理模型(如Llama系列)在短链上并不差,但长链上推理模型只是“恶化得慢一点”,并没有质变。这提示我们做工程时,必须对长链任务做显式的步骤拆分或外部验证,比如用符号引擎校验中间结果,或者强制模型输出逐步推导并交叉检查。

讨论问题:1)是否可能通过更细粒度的指令微调(比如链式思维模板)让模型学会维护等价类闭包,还是这触及了transformer的表示瓶颈?2)在现实系统中,大家更多是靠prompt工程缓解,还是引入图神经网络或逻辑规则作为辅助模块?

行业视野上,这篇论文给“推理能力军备竞赛”泼了冷水。如果连等价类这种封闭、确定性的任务都搞不定,开放域复杂推理的可靠性就更堪忧。短期看,混合架构(LLM+符号推理)可能比纯端到端模型更务实。