这篇arXiv论文从四子棋游戏入手,通过提取推理轨迹中的搜索树并拟合计算模型,揭示了LLM在规划任务中普遍存在的“短视”现象。核心发现是,模型倾向于在局部深度上展开搜索,而非全局最优路径。这与我之前在强化学习项目中的经验高度吻合——当模型缺乏对长期奖励的显式建模时,即使有思维链,也容易陷入局部最优。
技术上看,作者将搜索树量化为一组参数(如搜索深度、分支因子),并发现模型在每一步的“规划半径”远小于理论上最优策略所需。这解释了为什么许多推理模型在复杂多步推理中表现不稳定:它们并非真正在做规划,而是在做短程的贪婪搜索。
我的疑问是:这种短视是否源于训练数据中缺乏长程因果关系的显式标注?或者,是否可以通过在推理时引入蒙特卡洛树搜索(MCTS)风格的回溯机制来弥补?从行业趋势看,这可能会推动更多研究将传统规划算法(如A*、UCT)与LLM的生成能力结合,而非单纯依赖参数量或训练数据。
讨论问题:1. 搜素树的深度与推理准确性之间的权衡如何量化?2. 在非游戏场景(如代码生成、数学证明)中,这种短视规划是否同样存在?期待看到后续工作能扩展到更开放的领域。