最近arXiv上的这篇工作(2605.06840)通过从四子棋推理轨迹中提取搜索树,量化了LLM的规划行为,结论直指其“短视规划”本质。核心技术点在于:他们不是简单看最终答案,而是将中间推理步骤映射成显式的搜索树,然后拟合计算模型来分析深度和广度。关键数据是搜索树深度通常只有2-3层,远超人类规划时的5-6层,这说明LLM在权衡未来结果时更像“贪心搜索”而非真正的前瞻规划。

从我个人的工程实践看,这解释了很多落地痛点。之前做对话系统时,让LLM做多步任务分解(比如预订机票+酒店+租车),它经常卡在第一步的局部最优里,后续步骤完全脱节。当时怀疑是上下文窗口限制,但即使给了足够历史,它依然会“短视”。这篇论文的搜索树分析恰好印证了我的经验:LLM的所谓规划,本质是在已知路径上做局部优化,而非构建全局策略树。

这引发两个技术问题:1)能否通过显式注入搜索树结构(比如在prompt中要求“先列出所有可能分支再评估”)来强制LLM进行更全局的规划?2)搜索树深度与模型参数量或训练数据中的规划任务密度是否有相关性?

对行业而言,这意味着当前LLM的“推理能力”在复杂场景下可能被高估。如果规划只是局部贪心,那么Agent类应用(如自动化编程、多步骤决策)需要外部规划器来补偿,而不是纯靠模型内生推理。这反而利好符号规划与传统搜索方法的融合方向。