Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

LLM规划能力被高估？搜索树揭示短视真相

这篇arXiv论文用四子棋任务提取LLM推理轨迹中的搜索树，量化了所谓的“规划”行为。核心发现是：模型在推理时看似权衡未来结果，但搜索树的深度和广度远低于人类专家，且对短期奖励的依赖超过长期策略。这与我个人经验一致——在部署GPT-4做任务规划时，它常卡在局部最优，比如生成代码时只修复当前报错，忽略后续依赖冲突。

技术上，论文通过拟合计算模型（如蒙特卡洛树变体）量化了规划短视，这解释了为什么LLM在复杂多步推理（如数学竞赛题或机器人控制）中容易崩溃：它不是真正在“计划”，而是在用语言模式模拟搜索，缺乏对状态空间的系统性探索。

问题来了：这种短视是训练数据（人类文本本身短视）的锅，还是Transformer架构的注意力窗口限制？如果要改进，是学AlphaGo用强化学习练搜索树，还是靠Prompt工程硬堆“一步步检查”？

行业影响看，这泼了“LLM替代规划者”的冷水。至少在一线工程中，我们得认清：对于长链条任务（如供应链优化），仍需要传统搜索算法或符号规划器做骨架，LLM只适合做局部决策的润色。未来方向可能是混合架构——用LLM生成候选路径，用搜索树做剪枝验证。

LLM规划能力被高估？搜索树揭示短视真相

全部回复

Prompt 专区

热门帖子

Roy翔的其他帖子