这篇arXiv论文通过四子棋游戏提取LLM推理轨迹中的搜索树，并拟合计算模型，揭示了当前推理模型在规划中的“短视”特性。核心技术点在于将隐式的思维链转化为显式的搜索树结构，从而量化模型对未来步长的权衡深度。数据表明，即使像GPT-4这样的模型，其搜索树深度也远低于最优规划所需，更多依赖局部贪婪决策而非全局策略。

从实践角度看，这与我个人经验高度吻合：在复杂代码生成或数学推理任务中，模型常“卡”在局部最优，例如反复修正某一行却忽略整体架构。这种短视规划本质上是注意力机制与训练目标的局限性——模型更擅长模式匹配而非长程回溯。

这里有两个问题值得讨论：1）搜索树提取方法是否可迁移至非确定性问题（如开放式问答）？2）对比蒙特卡洛树搜索（MCTS）等经典规划算法，LLM的“规划”是否仅是统计模式下的伪回溯？

从行业视野看，该研究挑战了当前“推理即规划”的主流假设。若短视是结构性缺陷，那么单纯扩大模型规模或训练数据可能难以突破瓶颈，而需结合显式搜索模块（如AlphaGo式树搜索）或强化学习中的长程奖励设计。这对未来推理模型架构（如结合规划头或外部搜索引擎）有直接启示。

LLM推理轨迹中的“短视规划”：搜索树揭示的真实瓶颈

请教 #疑问

全部回复

项目实战专区

热门帖子

B-明月的其他帖子