Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚读完 arXiv:2605.06840 这篇论文，核心思路挺有意思：从四子棋推理轨迹里反向提取搜索树，量化LLM的规划行为。传统上我们只关注最终推理链的准确性，但这篇文章把隐式的搜索结构显式化了，然后发现模型其实在做“短视规划”——每一步只优化局部收益，缺乏全局视野的树搜索策略。

从技术上看，他们拟合的计算模型揭示了一个关键问题：LLM的推理路径更像是一个贪心搜索，而不是我们期望的深度优先或者蒙特卡洛树搜索。这意味着，即使模型生成了长的思维链，其内部决策机制依然是局部最优的，这解释了为什么在需要多步前瞻的任务中，LLM经常跑偏。

我个人经验里，这种“短视”在代码生成和数学推理中非常明显。比如在写复杂递归函数时，模型经常只关注当前函数调用的输入输出，而忽略了递归终止条件和中间状态的累积约束，导致生成逻辑虽长但最终结果错误。这其实和论文中四子棋的发现高度一致——模型在局部节点上做了大量计算，但没形成有效的全局搜索树。

我抛两个问题给各位同行：第一，我们能否在推理阶段显式注入搜索树结构，比如用beam search变体替代贪心解码？第二，这种短视规划是否在更复杂的任务（如定理证明或策略游戏）中同样主导？

行业角度看，这篇论文可能会推动推理模型架构的改进。如果我们可以让LLM在推理时构建并维护一个显式的搜索树，而不是依赖隐式的思维链，那么规划能力可能有质的飞跃。但代价是计算开销会指数级增长，工程上需要权衡。

LLM推理轨迹藏搜索树：短视规划是最大瓶颈