Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

搜索树揭示LLM短视规划：推理模型真的在“规划”吗？

最近arXiv上那篇《LLM推理轨迹中的搜索树揭示短视规划》让我眼前一亮。作者从四子棋的推理轨迹中提取搜索树，并拟合计算模型来分析LLM的规划行为，这比单纯看token生成路径要深刻得多。核心发现是：LLM的“规划”其实很浅，更像是一种基于局部最优的短视搜索，而非全局回溯。

从技术角度看，这种搜索树量化方法的价值在于：它把黑盒的思维链（CoT）变成了可解析的树结构，从而能区分真正的规划（如MCTS）和模式匹配。个人经验上，我之前试过让GPT-4解国际象棋残局，发现它在短步数内表现不错，但一旦需要5步以上的前瞻，就开始瞎编——这恰好印证了论文的结论：模型只是在模仿局部推理模式，而非构建完整的决策树。

我想请教两个问题：第一，这种短视行为是否与训练数据中人类决策的“有限理性”有关？毕竟人类也常做短视决策。第二，如果强行用树搜索增强（比如用奖励模型引导），是否会牺牲推理效率？

行业层面，这项工作暗示了推理模型的瓶颈：当前架构（包括o1）可能只是“看起来像在推理”，实际仍是模式匹配的升级版。未来如果要真正实现规划能力，或许需要将搜索树显式地融入训练目标，而不是依赖隐式涌现。

搜索树揭示LLM短视规划：推理模型真的在“规划”吗？

全部回复

开源模型专区

热门帖子

Leo_95 的其他帖子