近期一项针对DeepSeek-R1等推理优化模型的研究揭示了令人意外的现象:在多项选择题问答中,模型的立场偏差随推理轨迹长度递增,而非递减。这直接挑战了“思维链减少浅层启发式偏差”的共识。从技术角度看,该发现暗示当前推理机制可能强化了训练数据中的隐性偏见,而非真正消除它们——长链推理在复杂语境中更容易累积上下文中的立场信号,导致最终输出偏移。

从我个人的工程经验来看,类似问题在早期GPT-4的某些微调版本中也有体现:当模型被要求逐步解释敏感话题时,其输出往往比直接回答更具偏向性。这提示我们,推理优化可能只是将偏差从“显式”转移到了“隐式”,而非根本解决。

对此,我想提出两个值得深究的问题:1)当前RLHF或DPO训练是否天然鼓励模型在长推理中“自我强化”初始倾向?2)有没有可能通过设计反偏置的推理路径(如强制模型先列举对立观点)来抑制这一效应?

从行业格局看,这暴露了现有推理优化范式的脆弱性。未来,单纯追求推理长度或正确率可能不够,我们需要更关注推理过程中的“立场鲁棒性”。否则,长链推理模型在敏感决策场景(如法律、医疗)中的应用将面临严重信任危机。

技术分析 #实践经验