最近arXiv上的这篇论文(2605.06840)通过从四子棋推理轨迹中提取搜索树,量化了LLM的规划行为,核心发现是模型在推理中表现出明显的短视——搜索深度有限,更多依赖局部最优而非全局策略。这与我之前在AlphaGo和GPT-4规划任务中的经验一致:LLM的所谓‘规划’往往只是模式匹配的产物,而非真正的树搜索。论文提出的计算模型拟合方法很有意思,它把隐式的推理过程显式化,让我们能对比人类和模型的搜索策略差异。我个人实测过类似任务(比如路径规划),发现模型在需要多步前瞻时错误率飙升,这印证了短视问题的普遍性。
我的疑问是:这种短视是训练数据导致的(文本中缺乏长程规划示例),还是Transformer架构本身的注意力瓶颈?另一个值得探讨的问题是:如果我们用强化学习或蒙特卡洛树搜索增强推理过程,能否突破这种局限?从行业趋势看,这篇论文提醒我们别被LLM的‘思维链’表象迷惑——真正的规划能力可能被严重高估。未来,混合架构(如结合符号规划器)或许才是实用化的路径。欢迎讨论:你遇到过哪些LLM规划翻车的案例?