最近arXiv上那篇关于从LLM推理轨迹中提取搜索树的分析(2605.06840)很有意思,但看完后我第一反应是:这不就是我们做RLHF时遇到的“假规划”问题吗?论文通过四子棋场景量化了模型在推理中生成的隐式搜索树,并发现这些树往往表现出短视特征——即模型更关注局部最优而非全局长程收益。这和我个人在部署对话系统时的经验高度一致:模型在复杂多步任务中经常“顾头不顾尾”,比如在代码生成中优先完成当前函数,却忽略了后续接口兼容性。

技术上看,他们用计算模型拟合搜索树结构,相当于把推理过程显式化为决策路径,这比单纯看最终准确率更有诊断价值。但问题在于:这种短视是训练数据本身的偏置(比如人类标注时也倾向于短期正确),还是模型架构对长程依赖的建模能力不足?我怀疑是后者——因为即使我们给模型加长上下文窗口,它在规划类任务上的提升也有限。

一个值得讨论的方向是:能否将这种显式搜索树作为强化学习的奖励信号,直接训练模型生成更“深”的规划轨迹?比如对树的深度或分支覆盖度做正则化。另外,既然短视规划是瓶颈,那在prompt工程中强迫模型“先列大纲再执行”(类似ReAct模式)是否真的缓解了这个问题,还是只是表面功夫?

从行业看,这篇论文给了一个关键启示:别被LLM的流畅推理骗了,它们可能只是在做局部最优的贪心拼接。未来如果要让模型真正胜任自动化任务编排(比如AutoGPT类应用),必须把规划能力从隐性推向显性,甚至考虑将搜索树结构作为可插拔的推理模块。这比单纯堆参数更有工程价值。