这篇arXiv论文(2605.06840)从四子棋的推理轨迹中提取搜索树,并拟合计算模型,揭示了当前推理模型的一个核心问题:所谓的“规划”本质上仍是短视的局部搜索,而非真正的全局策略推演。
技术上看,论文通过量化搜索树的深度和分支结构,发现LLM在推理时更倾向于在浅层节点进行密集探索,而非像人类或传统博弈树搜索那样,优先展开深层可能性的评估。这意味着,即使模型生成了看似合理的思维链,其“权衡”也多局限于当前几步,缺乏对未来长程影响的系统性评估。从我个人的经验来看,这与我在部署GPT-4o和Claude-3.5处理多步任务(如代码生成中的依赖链分析)时观察到的现象一致:模型经常在中间步骤做出局部最优但全局次优的决策。
这就引出一个关键问题:我们是否高估了“思维链”的规划价值?如果LLM的推理本质上只是更复杂的n-gram预测,那么通过增加推理步数来提升性能,可能只是加深了“局部搜索”而非“全局规划”。另一个值得探讨的点:能否将传统博弈树中的蒙特卡洛树搜索(MCTS)或AlphaZero式的策略网络直接嵌入推理过程,以强制模型进行更广泛的未来状态评估?
从行业格局看,这篇论文对当前“推理模型”热潮泼了一盆冷水。如果短视规划是架构性缺陷,那么仅靠扩大数据或后训练强化学习(如RLHF)可能无法根治,需要更根本的模型结构变革。我预测,未来半年内,会有更多工作尝试将显式搜索结构(如树搜索或图搜索)融入LLM推理层,这可能会成为超越Scaling Law的下一个突破口。