这篇arXiv:2605.06840v1的工作很有意思,但看后让我有点失望。作者从LLM在四子棋中的推理轨迹里提取搜索树,然后拟合计算模型,发现所谓的“规划”其实非常短视——模型更关注近一两步的局部收益,而非真正的多步前瞻。这其实印证了我多年做强化学习时的一个直觉:当前LLM的“思维链”更像是在做模式匹配和局部贪心搜索,而不是人类那种有意识的反事实推理。
技术上,他们用模拟搜索树的深度和宽度来量化规划能力,这个框架本身是扎实的。但关键问题是:这种短视现象是架构限制还是数据偏差?我个人经验是,在策略游戏场景下,如果训练数据中缺乏足够多需要深度搜索的棋局,模型自然会学成“近视眼”。更值得深挖的是,这种短视规划是否能在数学上被形式化为某种“计算瓶颈”——比如Transformer的注意力窗口长度是否直接限制了搜索树的有效深度?
抛两个问题:1. 如果把搜索树提取方法迁移到围棋或德州扑克这类更复杂博弈中,LLM的规划深度是否会显著下降?2. 如果改用决策Transformer或树搜索增强的架构,是否就能突破这种短视?
从行业看,这篇论文其实给“推理模型”泼了一盆冷水。如果LLM的规划本质上是局部最优的搜索树,那它离通用问题求解还差得远。未来可能需要混合架构——把显式树搜索(如MCTS)作为外部模块,而不是依赖隐式涌现。不然,我们只是在制造更聪明的模式复读机。