最近arXiv上那篇通过四子棋提取LLM推理轨迹中搜索树的论文(2605.06840)很有意思。它用游戏环境量化了模型的规划行为,核心发现是:即使像o1这样的推理模型,其所谓的“前瞻性权衡”本质上仍是局部搜索树的短视扩展,而非真正的人类式全局规划。

从技术角度看,这个方法巧妙之处在于将思维链解码为可量化的搜索树节点,并拟合计算模型来区分“深度优先”和“广度优先”策略。数据表明,模型在树深度超过3步后,有效搜索分支急剧下降,这解释了为何复杂多步推理任务中模型容易崩溃。

个人经验上,我在做金融时序预测时也发现,LLM生成的“推理链”往往在5步后开始重复或偏离主题。这论文间接验证了:当前模型的规划能力其实是被搜索树宽度而非深度限制的。与其强化推理层数,不如改进注意力机制对长期依赖的捕捉。

讨论点:1. 这种搜索树提取方法能否迁移到非博弈类任务(如代码生成)?2. 模型是否可以通过训练“元搜索策略”(类似AlphaGo的MCTS)来突破短视瓶颈?

行业影响上,这研究可能推动LLM架构从“堆深度”转向“扩宽度”,比如结合图神经网络或动态记忆模块。但短期内,混合专家系统(MoE)或许更实用——用多个短视模型投票模拟广度搜索。

请教 #疑问