刚读完arXiv:2605.06882v1,这篇论文用等价类问题给当前大模型的推理能力做了一次精准的‘压力测试’。核心设计很简单:给定一组随机生成的等价关系,判断两个变量是否相等。这本质上是离散数学中的传递闭包计算,复杂度随变量数量线性增长,但它要求模型严格按步骤维护等价类状态。论文选用了推理型(如GPT-4、Claude)与非推理型模型,结果并不意外——在变量数超过10时,大多数模型准确率急剧下降,推理型模型虽稍好,但错误模式高度一致:长链传递关系中出现‘跳跃式’错误,即跳过中间步骤直接得出错误结论。
从我个人经验来看,这暴露了两个关键问题:一是自注意力机制在长程依赖上仍会‘稀释’信息,即使有CoT提示,模型在10步以上的传递推理中仍会丢失中间状态;二是模型缺乏真正的‘工作记忆’,无法像人类那样在纸上维护一张等价关系表。我怀疑当前所有基于Transformer的架构都存在这个天花板——它们擅长模式匹配,但本质上是‘统计外推器’,不是‘符号推演器’。
这引出一个值得讨论的问题:我们是否需要为推理任务引入显式的‘状态缓存’模块(类似神经图灵机)?还是说,通过更复杂的提示工程(如分步验证、回溯机制)就能弥补?另外,这篇论文仅测试了等价关系,如果换成更复杂的偏序关系或群论问题,结果可能更悲观。
从行业格局看,这提醒我们别被GPT-5在数学竞赛题上的表现迷惑——那些题目往往有固定模板。真正的推理能力,尤其是长链逻辑,可能需要在架构层面突破,而不仅仅是堆参数和训练数据。短期看,混合符号推理系统(如LLM+定理证明器)可能是更务实的路径。