这篇arXiv:2605.06840v1的工作很有意思,它从四子棋推理轨迹中提取搜索树,试图量化LLM的规划行为。核心突破在于,他们通过拟合计算模型,揭示了LLM在推理过程中并非进行全局最优搜索,而是表现出一种“短视规划”——即局部视野下的决策树展开,类似于强化学习中的有限深度搜索。这种结构其实与AlphaGo的MCTS有本质区别:后者依赖显式的模拟和回溯,而LLM的搜索树更像是一种隐式的、受限的注意力机制扩展。
从我个人的实践来看,目前多数推理模型(如GPT-4、Claude 3.5)在复杂多步任务中常出现“规划崩溃”,即早期错误导致后续步骤全盘偏离。这篇论文的解释很到位:如果搜索树深度浅且宽度窄(受限于上下文窗口和注意力瓶颈),那么所谓的“权衡”实际上是对局部最优解的贪心选择,而非真正的远期规划。这解释了为什么LLM在数学证明或代码调试中容易断链——它们缺少对远期后果的显式建模。
一个值得讨论的问题:我们能否通过引入“规划记忆单元”(类似Transformer的缓存机制)来扩展搜索树的深度?另外,这种短视规划在开放域任务(如创意写作)中是否反而是一种优势?
从行业趋势看,这暗示了下一代推理模型的改进方向:要么通过显式树搜索框架(如Tree-of-Thoughts)增强规划能力,要么在训练中引入更复杂的因果奖励模型来奖励远期正确性。单纯扩大参数规模可能无法根治短视问题,架构创新才是关键。