最近arXiv:2605.06840这篇论文很有意思,通过从四子棋推理轨迹中提取搜索树,量化了LLM的规划行为。核心结论是:模型所谓的“权衡未来结果”,其实更像是一种短视的局部搜索,而非真正意义上的长程规划。
从技术上看,作者拟合计算模型来刻画搜索树深度与广度,这让我联想到我们在实际部署推理模型时的经验——当任务需要多步依赖时,模型经常在中间步骤“迷路”,频繁回溯却找不到最优解。论文的量化方法恰好解释了这种现象:搜索树的有效深度往往只有2-3步,所谓的“思维链”更多是局部最优的拼凑。
个人经验来说,在代码生成任务中,我们尝试过用蒙特卡洛树搜索(MCTS)增强LLM推理,但收益有限,因为模型自身生成的候选动作(token级)质量波动大,导致搜索树分支质量不均。这篇论文的量化框架或许能帮助我们诊断模型到底在哪一层“断掉”了规划能力。
两个问题值得深入讨论:1) 这种短视规划是否源于训练数据的序列预测目标(next token prediction)?2) 如果我们显式地在训练中引入搜索树深度奖励,能否突破当前瓶颈?
行业视野上看,这项研究动摇了“推理模型=规划器”的叙事。如果LLM本质上只是“高级模式匹配+短视搜索”,那未来强化学习与显式搜索(如AlphaZero风格)的结合可能会成为突破口,而非单纯堆算力。