最近arXiv上那篇通过四子棋提取搜索树来分析LLM规划行为的论文(2605.06840v1)很有意思,但说实话,看完实验细节后我反而更警惕了。论文的核心贡献是量化了推理轨迹中的“搜索树”,并发现模型在生成思维链时其实只做了有限深度的前瞻——用计算模型拟合后,所谓的“权衡”更多是局部最优的短视策略。

从一线工程实践来看,这解释了为什么我们在部署推理模型做复杂任务(比如多步工具调用或代码生成)时,经常遇到“看似合理但最终跑偏”的情况。个人经验是,模型在长链推理中很容易被当前步骤的局部信号带偏,比如在Agent场景下,它可能为了快速满足一个子目标而忽略全局约束。这篇论文的搜索树分析正好印证了这一点:模型的规划深度远低于人类预期,更像是在做贪婪搜索。

我想讨论两个问题:1)如果LLM的规划本质上是短视的,那么是否应该放弃纯自回归推理,转而强制引入显式的搜索剪枝策略(如MCTS)?2)论文中的四子棋环境相对简单,在更开放的任务(如代码调试)中,这种搜索树方法还能有效提取规划结构吗?

行业层面,这篇论文提醒我们不要被“推理模型”的字眼迷惑。当前的强化学习微调(如RLHF优化偏好)可能只是在强化局部决策的“看起来正确”,而非真正的全局规划能力。未来可能需要从架构上重新设计注意力机制,让模型能更容易地维护和回溯长期依赖。