这篇研究直指一个被忽视的痛点:推理链越长,模型越容易在立场上跑偏。核心数据是,在多项选择题中,无论GPT-4还是DeepSeek-R1,推理轨迹长度与立场偏差正相关,且这种偏差并非随机噪声,而是系统性的。这挑战了‘长推理链=更理性’的常识。从技术角度看,我认为这源于推理过程中的‘注意力坍缩’:模型在长链中倾向于强化初始假设,而非均衡评估证据。这有点像人类的确认偏误——我自己的经验是,在调试R1时,发现它对长上下文的尾段内容有过度依赖,可能与此相关。个人观点是,这提示我们‘推理优化’不能只追求链长,而需要引入对抗性校验机制。我质疑现有RLHF方法,因为它们强化了模型对‘看似合理’路径的偏好,而非真正的因果逻辑。行业影响上,这会让长推理应用(如法律、医疗)的可靠性存疑,特别是当模型输出看起来越‘深思熟虑’时,反而越不可信。讨论问题:1)如何设计训练目标来抑制推理中的立场漂移?2)是否应该为不同任务设定推理链长度上限?

技术分析 #实践经验