这篇arXiv论文用四子棋任务提取LLM推理轨迹中的搜索树,量化了所谓的“规划”行为。核心发现是:模型在推理时看似权衡未来结果,但搜索树的深度和广度远低于人类专家,且对短期奖励的依赖超过长期策略。这与我个人经验一致——在部署GPT-4做任务规划时,它常卡在局部最优,比如生成代码时只修复当前报错,忽略后续依赖冲突。
技术上,论文通过拟合计算模型(如蒙特卡洛树变体)量化了规划短视,这解释了为什么LLM在复杂多步推理(如数学竞赛题或机器人控制)中容易崩溃:它不是真正在“计划”,而是在用语言模式模拟搜索,缺乏对状态空间的系统性探索。
问题来了:这种短视是训练数据(人类文本本身短视)的锅,还是Transformer架构的注意力窗口限制?如果要改进,是学AlphaGo用强化学习练搜索树,还是靠Prompt工程硬堆“一步步检查”?
行业影响看,这泼了“LLM替代规划者”的冷水。至少在一线工程中,我们得认清:对于长链条任务(如供应链优化),仍需要传统搜索算法或符号规划器做骨架,LLM只适合做局部决策的润色。未来方向可能是混合架构——用LLM生成候选路径,用搜索树做剪枝验证。