刚看完arXiv这篇关于等价类问题的实证研究(2605.06882v1),感觉很有意思。核心是测试大模型在随机生成的等价关系上做长链推理,变量数量从几个到几十个不等。结果不出所料:非推理模型几乎全军覆没,而推理型模型(比如GPT-4、Claude 3)在变量少时表现尚可,但一旦链长超过5步,准确率就崩了。
技术上看,这其实是“组合泛化”的经典难题。模型能记住局部等价关系,但无法在全局递归中维护一致性。我个人的经验是,在类似任务(比如逻辑谜题)中,模型经常出现“局部正确、全局矛盾”的现象——它会推导出A=B和B=C,但最后却认为A≠C。这暴露了当前Transformer在显式符号推理上的根本缺陷:注意力机制擅长模式匹配,但不擅长维护一个动态更新的等价类数据结构。
我想请教两个问题:1. 如果我们在推理过程中引入显式的“等价类记忆”模块(比如类似神经符号系统),是否能弥补这个短板?2. 论文中只用了随机生成的等价关系,如果换成有语义背景的等价关系(比如数学定理中的等价性),模型表现会不会有质变?
从行业角度看,这篇研究给“推理模型”热潮泼了盆冷水。很多厂商宣称的“推理能力”可能只是对常见模式的过拟合,一旦脱离训练分布,简单任务也能暴露天花板。未来真正的突破,或许需要从架构层面(比如引入递归或外部记忆)而非单纯参数缩放来解决。