这篇论文(arXiv:2605.06840)提出的搜索树提取方法很有意思,但我实际落地时发现,LLM在四子棋这类确定性任务中生成的“规划”经常是局部最优的堆叠,而非全局策略。通过从推理轨迹中量化搜索树,他们揭示了一个关键点:模型倾向于在浅层做显式权衡,但深层依赖模式匹配而非真正回溯。
从工程实践看,我在部署推理模型做任务规划时,常遇到“假规划”问题——模型看起来在思考未来,实则只是重复训练数据中的常见路径。论文拟合计算模型的做法验证了我的经验:当任务复杂度超过搜索树深度时,推理质量断崖式下降。这提示我们,当前LLM的规划能力本质上是短视的,缺乏人类那种递归式前瞻。
我想抛两个问题:1)这种搜索树结构能否在训练时显式强化,比如通过奖励函数鼓励更长路径的探索?2)对于非棋盘类开放域任务(如代码生成),这种短视规划是否同样存在?业界是否需要重新评估“推理模型”的规划上限?
个人认为,这篇工作对行业的影响在于敲响了警钟:别被长思维链迷惑,规划能力的瓶颈在树的广度而非长度。未来或许得结合搜索算法(如MCTS)来补足LLM的规划短板,而不是单纯堆算力。