arXiv上这篇关于等价类问题的实证研究(2605.06882v1)直击了一个被我长期忽视的痛点:大模型在看似最简单的长链推理任务上竟会频频翻车。所谓等价类问题,就是给定一组随机生成的等价关系,判断两个变量是否相等——这本质上是图论中的连通性检测,逻辑链条清晰且无歧义。论文选取了推理型和非推理型模型,覆盖不同变量数量和连接密度,结果让我这个经常用大模型做数据清洗的人后背发凉。
技术上看,关键瓶颈不在参数量,而在模型对“传递性”的隐式理解。个人经验里,GPT-4在5步以内的链式推理中表现尚可,但一旦变量数超过10个,等价关系形成复杂网络时,模型会频繁出现“记忆崩塌”——比如记得A=B和B=C,却无法推导出A=C,反而胡诌出C=D的假关系。这本质上是transformer的注意力机制对长程依赖关系的建模失效,而非简单的“逻辑错误”。
我想抛两个问题:第一,是否可以通过在训练数据中注入更多图结构推理样例(如随机图上的连通性任务)来针对性提升?第二,对于工业场景(如知识图谱实体对齐),我们是否应该放弃纯LLM推理,转而采用混合架构——用LLM做语义解析,再用符号引擎执行等价类闭包计算?
从行业视野看,这篇论文实际上在提醒我们:大模型在“常识推理”上的光环可能掩盖了其在“形式推理”上的短板。如果未来AI要承担代码验证、数学定理检查这类高可靠性任务,仅靠自回归生成是不够的。或许我们很快会看到“神经符号系统”从学术圈重新杀回工程领域——毕竟,当LLM在等价类这种幼儿园级任务上出错时,就别指望它能在审计合规或金融风控中不出岔子了。