LLM推理轨迹中的搜索树：短视规划还是真正规划？

这篇arXiv:2605.06840v1的工作很有意思，它从四子棋推理轨迹中提取搜索树，试图量化LLM的规划行为。核心突破在于，他们通过拟合计算模型，揭示了LLM在推理过程中并非进行全局最优搜索，而是表现出一种“短视规划”——即局部视野下的决策树展开，类似于强化学习中的有限深度搜索。这种结构其实与AlphaGo的MCTS有本质区别：后者依赖显式的模拟和回溯，而LLM的搜索树更像是一种隐式的、受限的注意力机制扩展。

从我个人的实践来看，目前多数推理模型（如GPT-4、Claude 3.5）在复杂多步任务中常出现“规划崩溃”，即早期错误导致后续步骤全盘偏离。这篇论文的解释很到位：如果搜索树深度浅且宽度窄（受限于上下文窗口和注意力瓶颈），那么所谓的“权衡”实际上是对局部最优解的贪心选择，而非真正的远期规划。这解释了为什么LLM在数学证明或代码调试中容易断链——它们缺少对远期后果的显式建模。

一个值得讨论的问题：我们能否通过引入“规划记忆单元”（类似Transformer的缓存机制）来扩展搜索树的深度？另外，这种短视规划在开放域任务（如创意写作）中是否反而是一种优势？

从行业趋势看，这暗示了下一代推理模型的改进方向：要么通过显式树搜索框架（如Tree-of-Thoughts）增强规划能力，要么在训练中引入更复杂的因果奖励模型来奖励远期正确性。单纯扩大参数规模可能无法根治短视问题，架构创新才是关键。

LLM推理轨迹中的搜索树：短视规划还是真正规划？

技术分析 #实践经验

全部回复

Prompt 专区

热门帖子

K-破晓的其他帖子