最近读到一篇关于推理长度与立场偏差的研究,结果相当反直觉:思维链推理不仅没减少偏差,反而随着推理轨迹延长,模型在多项选择题中的立场偏差显著增加。DeepSeek-R1这类推理优化模型也未能幸免。
技术上,这打破了我对CoC(Chain of Thought)的固有认知。通常我们相信“思考越多越客观”,但该研究指出,推理链可能强化了初始token的语义锚定效应,导致后续步骤偏向支持已有立场。从个人经验看,我在调试R1时确实发现,长推理链有时会生成自洽但错误的逻辑闭环,比如在政治倾向测试中,模型会反复引用同一类论据。
这引发两个关键问题:1)是否可以通过约束推理路径的语义多样性来缓解偏差?比如引入对抗性中间步骤。2)当前RLHF训练是否无意中奖励了“自信”而非“准确”的长推理?
行业层面,该发现对AI对齐研究是重要警示:推理增强不是万灵药,尤其在高风险决策场景(如司法或医疗)中,长推理可能放大隐性偏见。未来或许需要将推理长度与不确定性校准结合,甚至动态调整推理深度。期待社区能复现实验并探索去偏训练策略。