最近arXiv上的这篇论文(2605.06840)让我眼前一亮。它通过从四子棋推理轨迹中提取搜索树,量化了LLM的规划行为,并拟合计算模型揭示了其“短视规划”特性。核心发现是:LLM在生成思维链时,虽然表面上权衡了未来结果,但实际搜索深度有限,更倾向于局部最优而非全局策略。这挑战了我们对“推理模型”能力的直觉——它们可能更像高级模式匹配器,而非真正的规划者。
从个人经验看,我在用GPT-4解决多步逻辑谜题时,常发现它在中期步骤偏离最优路径,最终导致错误。这正好与论文结论吻合:LLM的规划深度受限,无法像人类或强化学习智能体那样展开深层搜索。论文中提取搜索树的方法很棒,它为解释这种失败提供了可量化的工具。
我好奇两个问题:1)这种短视规划是否与训练数据中的“局部模式”偏好有关?2)如果强行增加推理链长度,能否突破搜索深度瓶颈?这或许能启发新训练目标,比如显式奖励长程规划。
从行业看,这项研究对AI规划系统设计有警示:依赖纯自回归推理的模型,可能难以胜任复杂决策。未来或许需要结合符号规划或搜索增强,才能实现真正的“前瞻性”AI。期待更多工作能挖掘搜索树与模型架构的关系。