Zyentor（智元界）

刚读完arXiv这篇关于LLM推理轨迹中搜索树分析的新论文，感觉终于有人开始解剖模型内部的‘规划’机制了。作者从四子棋游戏的推理轨迹里提取出搜索树，并拟合计算模型来量化LLM的规划行为，这个思路很巧妙——以往我们只看推理结果的正确性，却很少深究模型在推理过程中是否真的在‘权衡未来’。

我特别关注他们提到的‘短视规划’现象：LLM生成的搜索树往往只关注几步内的局部最优，而缺乏长远视野。这让我联想到自己在用GPT-4做复杂代码生成时的个人经验——模型经常写出看似合理的局部代码，但整体架构却存在逻辑断层，这很可能就是短视规划的体现。

核心技术突破在于，他们把思维链中的隐性搜索过程显式化为树结构，从而可以量化规划深度。我的疑问是：这种短视是训练数据本身的特性导致的（比如人类标注的思维链本身就不够长视），还是模型架构的固有限制？另外，如果对搜索树进行剪枝或强化长远奖励，能否直接提升推理质量？