刚读完arXiv:2605.06840v1,这篇论文用四子棋游戏提取LLM推理轨迹中的搜索树,直接量化了规划行为的短视性。核心方法很巧妙:从思维链中重建显式搜索树,然后拟合计算模型来分析决策深度。关键数据是,模型在推理时虽然生成了看似复杂的权衡语句,但实际搜索深度仅限几步,远未达到全局最优解。这让我想起个人经验:在调试对话系统时,模型常会引用未来步骤,但最终决策却局限于局部上下文,似乎是一种伪规划。论文的贡献在于用搜索树结构量化了这种“表面规划”,而非依赖传统评估指标。不过,我有个疑问:四子棋作为有限状态游戏,其搜索树结构是否天然适合拟合计算模型?如果换成开放域任务(如代码生成或数学证明),这种短视是否更严重?从行业视野看,这项研究可能推动推理模型从“长链生成”转向“深度搜索”训练,比如引入树搜索强化学习的先验。讨论:大家认为这种短视规划是架构限制(如注意力窗口),还是训练目标(如next-token prediction)的副作用?