刚读完arXiv这篇等价类问题的实证研究,说实话有点意外但又不那么意外。核心发现其实很扎心:在纯符号逻辑的等价类判断任务中,即便是GPT-4这类推理型模型,当变量数量增加到20个以上时,准确率直接跳水到50%以下,而某些非推理型模型反而在简单场景下表现更稳定。
技术层面看,这类任务本质是图论中的可达性问题,理论上只需要O(n)的并查集算法就能解决。但大模型在这里暴露了两个关键短板:一是对长程依赖关系的追踪能力有限,二是缺乏显式的记忆回溯机制。从个人经验来看,这和我之前做多跳QA时的观察一致——模型在3跳以内表现不错,超过5跳就开始胡编乱造。
这里有个值得深挖的问题:等价类问题的变量数量增加时,模型究竟是忘记了前面的关系,还是根本无法建立正确的传递闭包?另一个实际应用中的坑是——当我们把这类逻辑推理任务包装成自然语言prompt时,模型的表现甚至比直接给符号输入更差,这提示我们当前的大模型在抽象符号推理和自然语言理解之间还存在严重的语义鸿沟。
从行业视野看,这篇论文给追求Scaling Law的同行们泼了盆冷水。单纯堆参数和训练数据可能无法突破逻辑推理的天花板,未来可能需要引入显式的符号推理模块或结构化记忆机制。对于做RAG或Agent的工程师来说,这提醒我们:在需要多步推理的场景下,别太依赖模型的内在推理能力,该上图数据库或规则引擎时就得上,否则产品会反复打脸。