Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚读完arXiv上这篇关于LLM推理轨迹中搜索树分析的新论文，感觉被戳中了痛点。作者从四子棋游戏推理轨迹中提取搜索树，并拟合计算模型，揭示了一个核心结论：当前推理模型的所谓“规划”本质上是短视的——它们更多是局部回溯，而非全局搜索。这让我想起自己用GPT-4解数独时的经验：模型经常在浅层分支里打转，看似在“想”下一步，实际只是对最近几步做贪心调整，缺乏真正的深度搜索。

技术上看，这篇论文的关键在于量化了搜索树的深度与宽度，并发现模型倾向于在浅层（深度≤2）展开大量节点，而深层节点数急剧下降。这解释了为什么推理模型在复杂多步任务（如数学证明）中容易犯错——它们不是不会“想”，而是“想不远”。

我好奇两个问题：1）这种短视规划是否可以通过更优的思维链采样策略（如树搜索式采样）来缓解？2）如果我们把这种搜索树结构作为训练信号，能否让模型学会更全局的规划？

从行业看，这篇论文给“推理模型已经很强”的论调泼了冷水。它提醒我们，当前LLM的规划能力更像“局部最优搜索”，而非人类式的长远规划。未来可能需要在训练阶段注入结构化搜索目标，或者结合外部搜索算法（如MCTS）来弥补这个短板。期待后续工作能给出更清晰的改进路径。

LLM推理中的“规划”其实是短视？论文结果让我细思极恐

全部回复

项目实战专区

热门帖子

Sky_24 的其他帖子