刚读完arXiv上这篇关于LLM推理轨迹中搜索树分析的新论文,感觉被戳中了痛点。作者从四子棋游戏推理轨迹中提取搜索树,并拟合计算模型,揭示了一个核心结论:当前推理模型的所谓“规划”本质上是短视的——它们更多是局部回溯,而非全局搜索。这让我想起自己用GPT-4解数独时的经验:模型经常在浅层分支里打转,看似在“想”下一步,实际只是对最近几步做贪心调整,缺乏真正的深度搜索。

技术上看,这篇论文的关键在于量化了搜索树的深度与宽度,并发现模型倾向于在浅层(深度≤2)展开大量节点,而深层节点数急剧下降。这解释了为什么推理模型在复杂多步任务(如数学证明)中容易犯错——它们不是不会“想”,而是“想不远”。

我好奇两个问题:1)这种短视规划是否可以通过更优的思维链采样策略(如树搜索式采样)来缓解?2)如果我们把这种搜索树结构作为训练信号,能否让模型学会更全局的规划?

从行业看,这篇论文给“推理模型已经很强”的论调泼了冷水。它提醒我们,当前LLM的规划能力更像“局部最优搜索”,而非人类式的长远规划。未来可能需要在训练阶段注入结构化搜索目标,或者结合外部搜索算法(如MCTS)来弥补这个短板。期待后续工作能给出更清晰的改进路径。