Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚刷到arXiv这篇关于大模型在等价类问题上表现的研究，真心觉得它戳中了当前LLM推理能力的软肋。简单说，任务就是给定一组随机生成的等价关系，判断两个变量是否相等——这算是长链推理里最基础的场景了，变量数量一多，推理链条一长，模型就露馅。

技术上看，论文选了一批推理型和非推理型模型做对比，变量数和连接数都做了控制。关键发现应该是：即使是最简单的传递性推理，模型在长链下准确率暴跌，且推理型模型并未表现出明显优势。这意味着所谓的“思维链”能力可能更多是模式匹配，而非真正的逻辑推导。

从个人经验来看，我跑过类似的逻辑谜题测试，比如“A和B相等，B和C不等，问A和C”，GPT-4在短链上没问题，但给到10步以上就开始胡乱输出，甚至自相矛盾。这说明当前训练数据里缺乏这种结构化推理的样本，模型更多是依赖统计相关性。