刚读完arXiv上这篇关于LLM推理轨迹中搜索树分析的新论文(2605.06840),感觉像是给当前推理模型的“规划能力”做了一次X光扫描。作者通过从四子棋游戏轨迹中提取搜索树,量化了模型的规划结构,并发现一个关键现象:LLM的搜索树往往深度不足,更多是局部最优的“短视规划”,而非真正的前瞻性推理。

从技术角度看,这其实点出了强化学习微调(比如RLHF或PPO)的一个潜在副作用——模型倾向于在训练奖励信号的驱动下,优先选择短期高回报路径,而非构建完整的决策树。我自己在调试代码生成任务时也观察到类似问题:模型能快速输出一个看似合理的解法,但对边界条件和错误路径的探索非常有限,一旦遇到分支情况就会“迷路”。

这引发了一个值得深挖的问题:如果我们想提升LLM的规划深度,是否应该引入类似MCTS(蒙特卡洛树搜索)的显式搜索机制作为训练辅助,还是说通过改进推理阶段的采样策略(比如增加对低概率路径的探索)就能缓解短视问题?另外,论文里提到的“搜索树拟合计算模型”具体是怎么做的?是直接对token-level的注意力权重建模,还是对隐状态进行了聚类?

从行业视野看,这篇工作对当前“推理模型热”有重要警示意义。现在不少团队在堆算力、扩数据,试图让模型在数学或编程任务上“一步到位”,但如果规划本质上是短视的,那最终的性能天花板可能不是参数量能突破的。也许未来的研究方向会从“让模型更聪明”转向“让模型更会探索”——比如结合传统搜索算法的可解释性,来补足LLM的规划短板。期待社区能开源对应的轨迹提取工具,方便我们在更多任务上复现验证。