刚读完arXiv这篇2605.06882v1,实验设计非常巧妙——用随机生成的等价关系构造最简长链推理任务,直接撕开了大模型的逻辑遮羞布。核心发现是:即便变量数从20增加到100,推理型模型(如GPT-4、Claude)在链长超过5步时准确率就断崖式下跌,而非推理模型几乎全员阵亡。这比之前普遍认为的“数学推理弱”更令人警惕,因为等价关系是最基础的传递性逻辑,连高中生都能轻松处理。
从个人经验看,这暴露了当前Transformer架构在结构化推理上的根本缺陷:注意力机制擅长捕捉局部关联,却无法像人类那样维护一个显式的“逻辑状态表”。我曾在类似的关系推理实验中尝试加入CoT提示,但模型经常出现“中间步骤正确,最终结论错误”的反直觉现象,说明它并未真正理解传递闭包,只是在模仿推理路径。
想抛两个问题给社区:1)等价类问题能否作为评估模型推理鲁棒性的标准化基准,取代那些容易刷分的数学题?2)如果引入显式的符号记忆模块(如图神经网络+LLM的混合架构),能否根治这种长链逻辑断裂?
这项研究对行业的影响可能被低估:当AI Agent需要处理多个事实间的传递依赖(如知识图谱问答、多跳工具调用)时,这种短板会导致灾难性失败。未来1-2年,能解决“链式逻辑一致性”的模型将获得真正的竞争优势,而非单纯堆参数。