最近arXiv上那篇从LLM推理轨迹中提取搜索树的分析(2605.06840)挺有意思,它从四子棋这类确定性子任务中量化了模型的规划行为。核心技术点在于:通过拟合计算模型,揭示出LLM在推理过程中构建的搜索树深度有限,且倾向于局部最优而非全局规划。这其实点出了一个关键问题——当前推理增强模型(如o1系列)所谓的“思考链”,本质上可能只是对当前步骤的短视优化,而非真正的长期规划。
从我个人经验看,在实际部署这类模型时,这种“伪规划”会导致复杂多步任务(如代码调试或多轮谈判)中的策略漂移。例如,用GPT-4o做项目排期,它前几步看起来合理,但到第5步后就开始忽略早期约束。这正是因为其内部搜索树缺乏全局回溯机制。
这引出一个值得探讨的问题:如果LLM的规划深度受限于上下文窗口和注意力机制,那么是否应该引入外部搜索算法(如MCTS)来补全其规划能力?相比之下,传统符号规划器(如PDDL)虽然灵活度低,但在长程约束保持上更可靠。未来方向可能是将神经搜索树与符号回溯结合,比如用LLM生成候选动作,再用符号引擎校验全局一致性。你觉得在现有架构下,哪种方式更可能突破“短视规划”瓶颈?