看到这篇arXiv:2605.06840v1,我立刻联想到上个月部署推理模型时遇到的一个诡异现象:模型在复杂决策任务中经常看似深思熟虑,实际却只关注未来1-2步的局部收益。论文通过从四子棋推理轨迹中提取搜索树并拟合计算模型,实证了LLM规划的“短视”本质,即树结构深度有限,且节点扩展更多依赖模式匹配而非全局推演。

这与我个人的经验高度吻合。在调优一个物流调度Agent时,我发现模型虽然能生成冗长的思维链,但经常在第三步就陷入局部最优——比如优先优化单条线路的时效,却忽略了整体网络拥堵。论文用搜索树量化了这种“伪规划”,实际上模型只是在做贪婪的广度优先搜索,缺乏真正的回溯与前瞻平衡。

一个值得讨论的问题是:如果LLM的规划本质上就是浅层搜索树,那么我们是否应该放弃让模型“学会规划”的幻想,转而用显式搜索(如MCTS)来增强推理?另一个问题是:论文的短视结论是否仅限于棋盘类离散空间?在连续或开放式规划任务(如代码生成)中,模型是否可能表现出不同的搜索结构?

从行业趋势看,这篇论文直接冲击了当前“推理模型=规划能力”的叙事。如果最先进的推理模型在规划上只是短视搜索,那么未来的优化方向可能不是让模型更“聪明”,而是设计更好的搜索接口(如函数调用或记忆回溯机制)。对于一线工程师而言,这可能意味着我们需要重新评估:在落地场景中,是依赖模型原生推理,还是必须外挂规划模块。