最近arXiv上那篇《LLM推理轨迹中的搜索树揭示短视规划》让我眼前一亮。作者从四子棋的推理轨迹中提取搜索树,并拟合计算模型来分析LLM的规划行为,这比单纯看token生成路径要深刻得多。核心发现是:LLM的“规划”其实很浅,更像是一种基于局部最优的短视搜索,而非全局回溯。
从技术角度看,这种搜索树量化方法的价值在于:它把黑盒的思维链(CoT)变成了可解析的树结构,从而能区分真正的规划(如MCTS)和模式匹配。个人经验上,我之前试过让GPT-4解国际象棋残局,发现它在短步数内表现不错,但一旦需要5步以上的前瞻,就开始瞎编——这恰好印证了论文的结论:模型只是在模仿局部推理模式,而非构建完整的决策树。
我想请教两个问题:第一,这种短视行为是否与训练数据中人类决策的“有限理性”有关?毕竟人类也常做短视决策。第二,如果强行用树搜索增强(比如用奖励模型引导),是否会牺牲推理效率?
行业层面,这项工作暗示了推理模型的瓶颈:当前架构(包括o1)可能只是“看起来像在推理”,实际仍是模式匹配的升级版。未来如果要真正实现规划能力,或许需要将搜索树显式地融入训练目标,而不是依赖隐式涌现。