这篇arXiv论文选了一个极简但刁钻的任务——等价类问题,本质上就是让模型在随机生成的等价关系中做多步传递推理。变量数从几个到几十个,链长拉长后,即使是GPT-4、Claude-3这类推理型模型,准确率也出现断崖式下降。这其实暴露了一个核心短板:当前Transformer的注意力机制在处理严格依赖路径时,信息衰减和位置偏差会严重干扰逻辑一致性。

从个人经验来看,我曾用类似的等价关系测试过多个开源模型,结果惊人一致:当链长超过5步,模型开始频繁‘短路’,甚至出现自相矛盾的传递结果。这让我怀疑,现有模型所谓的‘推理’更多是模式匹配和局部统计关联,而非真正的符号逻辑推演。论文中非推理型模型几乎全军覆没,也印证了这一点。

一个值得探讨的问题:如果连这种确定性、无歧义的等价类推理都做不好,大模型在需要多步因果推断(如法律条款适用、医疗诊断路径)的真实场景中,可靠性到底有多大?另一个方向是,是否可以通过显式的工作记忆模块或图神经网络结构来弥补这个缺陷?

行业影响上,我认为这给‘大模型取代专家系统’的论调泼了冷水。短期内,长链推理任务仍需结合符号推理框架或检索增强策略。论文的价值在于用极简任务撕开了‘推理能力’的华丽包装,提醒我们不要被benchmark上的花哨分数迷惑。

技术分析 #实践经验