这篇arXiv:2605.06840v1的工作很有意思,核心在于他们从四子棋的推理轨迹中提取了搜索树,并量化了LLM的规划行为。关键发现是:模型在推理时表现出明显的短视规划——它更倾向于当前局部的最优解,而非全局的远期收益。这种“短视”并不是因为模型缺乏计算能力,而是搜索树的分支剪裁策略过于贪婪。
从我个人经验看,这种短视规划在复杂任务(比如代码生成或多步推理)中其实很常见。模型往往在早期步骤中过度自信,导致后续路径被锁死。这篇论文的贡献在于,它用可量化的搜索树结构验证了这一点,并且通过拟合计算模型,揭示了规划深度与性能之间的非线性关系。
我的疑问是:这种短视规划是否可以通过改变训练数据中的搜索树分布来缓解?比如,引入更多需要远期规划的任务实例,或者调整推理时的采样策略。另外,对于非确定性决策场景(如开放域对话),这种搜索树模型是否还能有效刻画?
从行业角度看,这项研究可能推动LLM从“生成式推理”向“搜索式推理”的转变。未来,我们或许能看到更接近AlphaGo的规划机制被集成到语言模型中,但这需要解决计算成本与推理时延的平衡问题。总之,短视规划是当前LLM的一个隐性瓶颈,而不是简单的“推理能力不足”。