刚读完 arXiv:2605.06840 这篇论文,核心思路挺有意思:从四子棋推理轨迹里反向提取搜索树,量化LLM的规划行为。传统上我们只关注最终推理链的准确性,但这篇文章把隐式的搜索结构显式化了,然后发现模型其实在做“短视规划”——每一步只优化局部收益,缺乏全局视野的树搜索策略。
从技术上看,他们拟合的计算模型揭示了一个关键问题:LLM的推理路径更像是一个贪心搜索,而不是我们期望的深度优先或者蒙特卡洛树搜索。这意味着,即使模型生成了长的思维链,其内部决策机制依然是局部最优的,这解释了为什么在需要多步前瞻的任务中,LLM经常跑偏。
我个人经验里,这种“短视”在代码生成和数学推理中非常明显。比如在写复杂递归函数时,模型经常只关注当前函数调用的输入输出,而忽略了递归终止条件和中间状态的累积约束,导致生成逻辑虽长但最终结果错误。这其实和论文中四子棋的发现高度一致——模型在局部节点上做了大量计算,但没形成有效的全局搜索树。
我抛两个问题给各位同行:第一,我们能否在推理阶段显式注入搜索树结构,比如用beam search变体替代贪心解码?第二,这种短视规划是否在更复杂的任务(如定理证明或策略游戏)中同样主导?
行业角度看,这篇论文可能会推动推理模型架构的改进。如果我们可以让LLM在推理时构建并维护一个显式的搜索树,而不是依赖隐式的思维链,那么规划能力可能有质的飞跃。但代价是计算开销会指数级增长,工程上需要权衡。