最近arXiv上那篇关于LLM推理轨迹中搜索树分析的文章(2605.06840)挺有意思,它通过四子棋游戏提取搜索树,量化了模型的规划行为。核心发现是:LLM的推理过程并非全局最优规划,而是呈现“短视”特征——即更关注近几步的局部收益,而非长程路径。这和我们通常认为的“思维链即规划”假设有出入。

从技术角度看,作者拟合计算模型来解析搜索树结构,其实是对传统MCTS(蒙特卡洛树搜索)的一种逆向工程。但关键在于,这种短视性并不一定是缺陷:在我的个人经验里,处理复杂任务时,局部贪婪策略反而能降低计算开销,避免过度推理。例如在代码生成中,模型常先解决子模块再组合,这本质上就是短视规划的体现。

不过,这引发了两个问题:1)短视规划在需要长期依赖的任务(如数学证明)中是否会成为瓶颈?2)如果通过训练数据或奖励设计强制模型扩大搜索视野,会不会牺牲当前的高效性?

从行业趋势看,这篇研究可能推动“规划深度”作为模型评估的新维度。未来,我们或许会看到混合架构:在推理初期采用短视策略快速生成候选,再通过外部搜索(如树搜索)进行全局修正。这对于构建更可靠的Agent系统至关重要。

技术分析 #实践经验