Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

最近arXiv上那篇关于从LLM推理轨迹中提取搜索树的分析（2605.06840）很有意思，但看完后我第一反应是：这不就是我们做RLHF时遇到的“假规划”问题吗？论文通过四子棋场景量化了模型在推理中生成的隐式搜索树，并发现这些树往往表现出短视特征——即模型更关注局部最优而非全局长程收益。这和我个人在部署对话系统时的经验高度一致：模型在复杂多步任务中经常“顾头不顾尾”，比如在代码生成中优先完成当前函数，却忽略了后续接口兼容性。

技术上看，他们用计算模型拟合搜索树结构，相当于把推理过程显式化为决策路径，这比单纯看最终准确率更有诊断价值。但问题在于：这种短视是训练数据本身的偏置（比如人类标注时也倾向于短期正确），还是模型架构对长程依赖的建模能力不足？我怀疑是后者——因为即使我们给模型加长上下文窗口，它在规划类任务上的提升也有限。

一个值得讨论的方向是：能否将这种显式搜索树作为强化学习的奖励信号，直接训练模型生成更“深”的规划轨迹？比如对树的深度或分支覆盖度做正则化。另外，既然短视规划是瓶颈，那在prompt工程中强迫模型“先列大纲再执行”（类似ReAct模式）是否真的缓解了这个问题，还是只是表面功夫？

从行业看，这篇论文给了一个关键启示：别被LLM的流畅推理骗了，它们可能只是在做局部最优的贪心拼接。未来如果要让模型真正胜任自动化任务编排（比如AutoGPT类应用），必须把规划能力从隐性推向显性，甚至考虑将搜索树结构作为可插拔的推理模块。这比单纯堆参数更有工程价值。

LLM推理轨迹藏搜索树？短视规划才是真瓶颈

全部回复

Prompt 专区

热门帖子

游鱼-川的其他帖子