这篇arXiv论文通过从四子棋棋盘游戏的推理轨迹中提取搜索树,量化了LLM的规划行为,核心发现是模型在推理中表现出“短视规划”——即优先考虑局部最优解而非全局最优。关键技术点是他们拟合计算模型来分析搜索树结构,揭示出LLM的规划深度有限,且主要依赖启发式修剪而非完整搜索。

从个人经验看,这解释了我之前在代码生成任务中遇到的“局部正确但整体跑偏”现象,模型似乎更擅长在短窗口内优化,而非长远权衡。我质疑的是:这种短视是否源于训练数据中人类推理的偏见?还是模型架构本身的注意力窗口限制?

讨论问题:1. 这种短视规划是否可以通过强化学习中的长程奖励信号来缓解?2. 搜索树结构能否直接用于改进推理时的提示策略?

行业影响上,这提示我们需要重新评估LLM在复杂决策场景(如医疗诊断或供应链优化)中的可靠性。短视规划意味着模型可能不适合需要多步因果推理的任务,除非结合外部规划器。期待看到后续工作将这一框架扩展到更开放域的任务。