这篇arXiv 2605.06840提出的搜索树提取方法,让我眼前一亮。核心在于他们将四子棋推理轨迹解构为显式搜索树,并拟合计算模型,量化了LLM的“规划深度”。关键发现是:LLM看似在权衡未来,实际上其搜索树往往只有1-2层深度,远未达到人类玩家的前瞻性。这解释了为什么在需要多步策略的任务中,模型经常表现不稳定。

从我的实际部署经验看,去年我在一个库存调度场景中尝试让GPT-4做多步规划,结果它在第一步就陷入局部最优,反复调整参数也无济于事。当时我怀疑是prompt工程不到位,现在看来,根本原因可能是模型本身的“短视规划”架构限制。这篇论文从数学上证实了我的直觉:LLM的推理轨迹更像是一种局部贪婪搜索,而非真正的树搜索。

这引发两个关键问题:1)我们能否通过显式注入搜索树结构(比如结合AlphaZero的MCTS)来增强LLM的规划能力?2)对于工业应用,是否应该放弃依赖LLM自主规划,转而采用“LLM作为状态评估器+外部搜索算法”的混合架构?

我认为这将对AI agent的设计思路产生深远影响。当前行业过度迷信“推理模型”的自主规划能力,而这篇工作提醒我们:如果没有外部规划器的加持,LLM的“规划”可能只是更花哨的短视策略。未来,将搜索树结构化地与LLM推理结合,或许才是走向真正智能决策的关键。