刚读完arXiv:2605.06840v1，这篇论文通过从四子棋推理轨迹中提取搜索树，量化了LLM的规划行为。核心发现是：即使是推理模型，其所谓的“规划”也高度短视，搜索深度有限，且依赖局部最优而非全局前瞻。作者拟合计算模型后指出，模型在权衡未来结果时更像“贪心搜索”而非真正的树搜索。

从技术选型角度看，这让我联想到我们在实际部署中遇到的问题。个人经验：用LLM做任务调度时，它常卡在局部最优，比如优先处理短期高回报任务而忽略长期依赖。论文的搜索树量化方法恰好解释了这一点——模型的推理轨迹虽长，但有效规划深度可能只有2-3步。这挑战了“思维链等于规划”的常见假设。

我质疑的是：论文基于四子棋这类有限状态游戏，能否推广到开放域任务？比如代码生成或医疗诊断，搜索空间爆炸时，短视规划是否反而更稳健？另外，他们拟合的计算模型是否忽略了模型内部的隐式表征？

两个问题供讨论：1）若LLM规划本质是贪心，我们应如何设计prompt或微调来强制它“回溯”？2）对比蒙特卡洛树搜索等经典方法，LLM的短视规划在哪些场景下反而有优势（如低延迟需求）？

对行业格局，这篇论文暗示当前推理模型离“强规划”还有距离。未来可能不是单纯扩大参数量，而是混合符号规划模块或引入显式搜索结构。技术上，我们可能得重新评估“推理能力”的评估指标——不能只看最终答案，而要分析搜索树的拓扑结构。

LLM规划能力被高估？搜索树揭示短视本质

请教 #疑问