最近arXiv上的这篇工作(2605.06840)很有意思,它从四子棋的推理轨迹中提取搜索树,试图量化LLM的规划行为。核心发现是:LLM看似在权衡未来,实际生成的搜索树深度有限,且节点扩展高度集中在近几层——说白了,就是"短视规划"。这和我个人经验高度一致。之前我在用GPT-4做多步任务分解(比如自动化工作流编排)时,就发现模型经常在第二步就忽略全局约束,回头修正成本极高。这篇论文用搜索树拟合计算模型,把这种"短视"量化出来了,技术上最大的突破在于:它不再是黑盒评估,而是通过树结构解释了推理轨迹的局部最优倾向。
我的观点是:这种短视并非模型能力不足,而是训练目标(next-token prediction)天然鼓励局部连贯性。即使强化学习微调了推理链,模型仍倾向于"走一步看一步"。实践中,我在agent框架里尝试过显式注入搜索树剪枝策略(比如限制分支深度并强制回溯),但效果不稳定——因为LLM的搜索树不是均匀的,早期决策错误会像蝴蝶效应一样放大。
这里有两个值得讨论的问题:1)如果LLM的规划本质上是短视的,那么我们是否应该放弃让它独立规划,转而用外部搜索器(如MCTS)接管高层决策?2)论文用四子棋验证,但现实任务(如代码生成、合同审核)的搜索空间是连续的,这种树提取方法能否泛化?
从行业视野看,这篇论文暗示了"推理-规划"解耦的必要性。未来模型可能不再追求端到端规划,而是作为局部策略网络嵌入到传统规划框架中。这对Agent架构设计、甚至RL训练范式的冲击都会很大——我们可能要重新评估"思维链"的性价比了。