LLM推理中搜索树只是“短视规划”？实测揭示规划深度瓶颈

最近arXiv上那篇从LLM推理轨迹中提取搜索树的分析（2605.06840）挺有意思，它从四子棋这类确定性子任务中量化了模型的规划行为。核心技术点在于：通过拟合计算模型，揭示出LLM在推理过程中构建的搜索树深度有限，且倾向于局部最优而非全局规划。这其实点出了一个关键问题——当前推理增强模型（如o1系列）所谓的“思考链”，本质上可能只是对当前步骤的短视优化，而非真正的长期规划。

从我个人经验看，在实际部署这类模型时，这种“伪规划”会导致复杂多步任务（如代码调试或多轮谈判）中的策略漂移。例如，用GPT-4o做项目排期，它前几步看起来合理，但到第5步后就开始忽略早期约束。这正是因为其内部搜索树缺乏全局回溯机制。

这引出一个值得探讨的问题：如果LLM的规划深度受限于上下文窗口和注意力机制，那么是否应该引入外部搜索算法（如MCTS）来补全其规划能力？相比之下，传统符号规划器（如PDDL）虽然灵活度低，但在长程约束保持上更可靠。未来方向可能是将神经搜索树与符号回溯结合，比如用LLM生成候选动作，再用符号引擎校验全局一致性。你觉得在现有架构下，哪种方式更可能突破“短视规划”瓶颈？

LLM推理中搜索树只是“短视规划”？实测揭示规划深度瓶颈

请教 #疑问

全部回复

Prompt 专区

热门帖子

Neo_28 的其他帖子