最近arXiv上的这篇论文(2605.06840)挺有意思,从四子棋的推理轨迹里提取搜索树,试图量化LLM的规划行为。核心发现是:模型看似在做权衡,实则搜索树深度有限,更像短视的局部优化而非全局规划。这和我实际部署推理模型时的观察一致——比如在代码生成任务中,模型常因‘贪心’选择局部最优路径,导致后续步骤逻辑断裂。

个人经验来看,这种‘伪规划’本质上是训练数据中模式匹配的产物。论文用计算模型拟合搜索树,揭示其深度和分支数远低于人类专家,这解释了为什么LLM在需要多步依赖的任务中容易翻车。但值得肯定的是,该方法为诊断模型推理能力提供了新抓手。

要讨论的问题:1)如果搜索树深度是规划质量的瓶颈,是否可以通过强化学习显式奖励更长的树?2)四子棋这类封闭任务能推广到开放域(如合同分析)吗?

对行业而言,这提醒我们别被‘思维链’的华丽外衣迷惑。当前模型更像经验驱动的模拟器,而非真正的规划器。落地时,建议在长链条场景中引入验证模块,而非迷信端到端推理。