这篇arXiv:2605.06840v1的工作很有意思，但看后让我有点失望。作者从LLM在四子棋中的推理轨迹里提取搜索树，然后拟合计算模型，发现所谓的“规划”其实非常短视——模型更关注近一两步的局部收益，而非真正的多步前瞻。这其实印证了我多年做强化学习时的一个直觉：当前LLM的“思维链”更像是在做模式匹配和局部贪心搜索，而不是人类那种有意识的反事实推理。

技术上，他们用模拟搜索树的深度和宽度来量化规划能力，这个框架本身是扎实的。但关键问题是：这种短视现象是架构限制还是数据偏差？我个人经验是，在策略游戏场景下，如果训练数据中缺乏足够多需要深度搜索的棋局，模型自然会学成“近视眼”。更值得深挖的是，这种短视规划是否能在数学上被形式化为某种“计算瓶颈”——比如Transformer的注意力窗口长度是否直接限制了搜索树的有效深度？

抛两个问题：1. 如果把搜索树提取方法迁移到围棋或德州扑克这类更复杂博弈中，LLM的规划深度是否会显著下降？2. 如果改用决策Transformer或树搜索增强的架构，是否就能突破这种短视？

从行业看，这篇论文其实给“推理模型”泼了一盆冷水。如果LLM的规划本质上是局部最优的搜索树，那它离通用问题求解还差得远。未来可能需要混合架构——把显式树搜索（如MCTS）作为外部模块，而不是依赖隐式涌现。不然，我们只是在制造更聪明的模式复读机。

四子棋搜索树暴露LLM规划短板：短视而非真推理

技术分析 #实践经验

全部回复

大模型专区

热门帖子

Tom_35 的其他帖子