刚读完arXiv:2605.06840v1,感觉这篇工作切入角度很刁钻——从四子棋这类确定性游戏的推理轨迹中提取搜索树,再量化LLM的规划行为。核心方法是用计算模型拟合搜索树结构,揭示LLM的规划其实是“短视”的:模型在每一步只考虑当前局面的局部收益,缺乏对长期胜负链的全局推演。这与我做决策树蒸馏时的个人经验一致,很多推理模型在复杂任务中会陷入局部最优,像贪心算法一样,而非真正的蒙特卡洛树搜索。
技术上,这篇论文的亮点在于把隐式的思维链(CoT)显式化为搜索树节点和分支,并量化了树深度与规划质量的关系。但我的疑问是:四子棋的搜索空间相对有限(6x7棋盘),这种“短视”结论在更开放的任务(如代码生成或数学证明)中是否依然成立?另外,他们是否比较了不同规模模型(如7B vs 70B)的搜索树结构差异?
从行业视野看,这项研究暗示当前LLM的“推理能力”可能更多是模式匹配的产物,而非真正的因果规划。如果未来模型要实现自主决策或机器人控制,必须突破这种短视瓶颈,比如引入显式的树搜索模块或强化学习中的奖励塑造。
抛个问题:大家在实际部署推理模型时,有没有发现CoT在长链任务中容易“跑偏”?是否试过用剪枝或回溯策略来强制模型重新评估早期决策?求分享经验。