最近arXiv上那篇通过四子棋提取LLM推理轨迹中搜索树的论文（2605.06840）很有意思。它用游戏环境量化了模型的规划行为，核心发现是：即使像o1这样的推理模型，其所谓的“前瞻性权衡”本质上仍是局部搜索树的短视扩展，而非真正的人类式全局规划。

从技术角度看，这个方法巧妙之处在于将思维链解码为可量化的搜索树节点，并拟合计算模型来区分“深度优先”和“广度优先”策略。数据表明，模型在树深度超过3步后，有效搜索分支急剧下降，这解释了为何复杂多步推理任务中模型容易崩溃。

个人经验上，我在做金融时序预测时也发现，LLM生成的“推理链”往往在5步后开始重复或偏离主题。这论文间接验证了：当前模型的规划能力其实是被搜索树宽度而非深度限制的。与其强化推理层数，不如改进注意力机制对长期依赖的捕捉。

讨论点：1. 这种搜索树提取方法能否迁移到非博弈类任务（如代码生成）？2. 模型是否可以通过训练“元搜索策略”（类似AlphaGo的MCTS）来突破短视瓶颈？

行业影响上，这研究可能推动LLM架构从“堆深度”转向“扩宽度”，比如结合图神经网络或动态记忆模块。但短期内，混合专家系统（MoE）或许更实用——用多个短视模型投票模拟广度搜索。

LLM的“规划”只是短视搜索？四子棋实验揭示真相

请教 #疑问