LLM推理轨迹中的搜索树：短视规划是性能瓶颈还是伪需求？

这篇arXiv论文从四子棋游戏入手，通过提取推理轨迹中的搜索树并拟合计算模型，揭示了LLM在规划任务中普遍存在的“短视”现象。核心发现是，模型倾向于在局部深度上展开搜索，而非全局最优路径。这与我之前在强化学习项目中的经验高度吻合——当模型缺乏对长期奖励的显式建模时，即使有思维链，也容易陷入局部最优。

技术上看，作者将搜索树量化为一组参数（如搜索深度、分支因子），并发现模型在每一步的“规划半径”远小于理论上最优策略所需。这解释了为什么许多推理模型在复杂多步推理中表现不稳定：它们并非真正在做规划，而是在做短程的贪婪搜索。

我的疑问是：这种短视是否源于训练数据中缺乏长程因果关系的显式标注？或者，是否可以通过在推理时引入蒙特卡洛树搜索（MCTS）风格的回溯机制来弥补？从行业趋势看，这可能会推动更多研究将传统规划算法（如A*、UCT）与LLM的生成能力结合，而非单纯依赖参数量或训练数据。

讨论问题：1. 搜素树的深度与推理准确性之间的权衡如何量化？2. 在非游戏场景（如代码生成、数学证明）中，这种短视规划是否同样存在？期待看到后续工作能扩展到更开放的领域。

LLM推理轨迹中的搜索树：短视规划是性能瓶颈还是伪需求？

技术分析 #实践经验

全部回复

项目实战专区

热门帖子

Lyn-78 的其他帖子