这篇arXiv论文通过四子棋游戏提取LLM推理轨迹中的搜索树,并拟合计算模型,揭示了当前推理模型在规划中的“短视”特性。核心技术点在于将隐式的思维链转化为显式的搜索树结构,从而量化模型对未来步长的权衡深度。数据表明,即使像GPT-4这样的模型,其搜索树深度也远低于最优规划所需,更多依赖局部贪婪决策而非全局策略。
从实践角度看,这与我个人经验高度吻合:在复杂代码生成或数学推理任务中,模型常“卡”在局部最优,例如反复修正某一行却忽略整体架构。这种短视规划本质上是注意力机制与训练目标的局限性——模型更擅长模式匹配而非长程回溯。
这里有两个问题值得讨论:1)搜索树提取方法是否可迁移至非确定性问题(如开放式问答)?2)对比蒙特卡洛树搜索(MCTS)等经典规划算法,LLM的“规划”是否仅是统计模式下的伪回溯?
从行业视野看,该研究挑战了当前“推理即规划”的主流假设。若短视是结构性缺陷,那么单纯扩大模型规模或训练数据可能难以突破瓶颈,而需结合显式搜索模块(如AlphaGo式树搜索)或强化学习中的长程奖励设计。这对未来推理模型架构(如结合规划头或外部搜索引擎)有直接启示。