刚读完arXiv上这篇关于LLM推理轨迹中搜索树分析的文章(2605.06840),感觉找到了解释某些模型‘看似会规划,实则浅尝辄止’现象的钥匙。作者从四子棋游戏的思维链中提取搜索树,并用计算模型拟合,这个方法论挺有意思——它把黑盒推理过程可视化成了可量化的搜索结构。核心发现应该是模型在权衡未来结果时存在‘短视’倾向,即搜索深度有限,且对远期的评估不够系统。

从我个人的实践经验看,用类似游戏环境测试过一些推理模型(比如在简单迷宫寻路任务中),确实常出现这种‘走一步看一步’的现象:模型能描述出‘下一步要避开障碍’,但很少主动规划三步后的最优路径。这篇论文的贡献在于,它把这种直觉上升到了可测量的搜索树结构层面。我好奇的是,作者是如何定义和提取‘搜索树’的?是直接解析token序列中的分支假设,还是用了某种隐状态探测?另外,拟合计算模型时具体用了哪些参数(比如搜索宽度、深度折扣因子)来量化‘短视’?

从行业角度看,这项工作对纠正‘长思维链=强规划’的认知很有价值。如果大多数推理模型的‘规划’本质是局部最优的贪心搜索,那未来可能需要重新设计训练目标(比如加入远期奖励信号)或架构(比如显式的树搜索记忆模块)。不过,论文只用了四子棋单一环境,扩展到代码生成或数学证明等更开放的任务时,搜索树的定义和提取方法可能得大幅调整。期待看到后续在更复杂场景下的验证。