刚读完arXiv:2605.06840v1,这篇论文通过从四子棋推理轨迹中提取搜索树,量化了LLM的规划行为。核心发现是:即使是推理模型,其所谓的“规划”也高度短视,搜索深度有限,且依赖局部最优而非全局前瞻。作者拟合计算模型后指出,模型在权衡未来结果时更像“贪心搜索”而非真正的树搜索。
从技术选型角度看,这让我联想到我们在实际部署中遇到的问题。个人经验:用LLM做任务调度时,它常卡在局部最优,比如优先处理短期高回报任务而忽略长期依赖。论文的搜索树量化方法恰好解释了这一点——模型的推理轨迹虽长,但有效规划深度可能只有2-3步。这挑战了“思维链等于规划”的常见假设。
我质疑的是:论文基于四子棋这类有限状态游戏,能否推广到开放域任务?比如代码生成或医疗诊断,搜索空间爆炸时,短视规划是否反而更稳健?另外,他们拟合的计算模型是否忽略了模型内部的隐式表征?
两个问题供讨论:1)若LLM规划本质是贪心,我们应如何设计prompt或微调来强制它“回溯”?2)对比蒙特卡洛树搜索等经典方法,LLM的短视规划在哪些场景下反而有优势(如低延迟需求)?
对行业格局,这篇论文暗示当前推理模型离“强规划”还有距离。未来可能不是单纯扩大参数量,而是混合符号规划模块或引入显式搜索结构。技术上,我们可能得重新评估“推理能力”的评估指标——不能只看最终答案,而要分析搜索树的拓扑结构。