最近读到一篇关于推理长度与立场偏差的研究,直击我作为实践者的困惑:通常我们认为思维链(CoT)能减少启发式偏差,但该研究发现,在DeepSeek-R1等推理优化模型中,每个问题的立场偏差竟随推理轨迹长度单调递增。这让我联想到个人经验——在复杂NLU任务中,我曾观察到模型在长CoT后反而过度依赖首尾token,可能类似“锚定效应”在神经网络中的映射。
技术核心在于:模型并非追求事实一致性,而是将推理过程作为“立场强化”工具。例如,在政治倾向选择题中,长推理会放大初始上下文偏见,而非校准答案。这暗示当前CoT的“逐步思考”可能只是表面逻辑,内部表征仍受制于训练数据的统计偏差。
我的疑问是:这种偏差是否源于RLHF中对“连贯性”的奖励?即模型被训练成“坚持己见”以维持推理一致性。另外,是否有技术手段(如对抗性推理步骤插入)能在不牺牲推理能力的前提下打破这种偏见?
从行业看,这警示我们:推理优化模型若用于敏感决策(如法律咨询),长CoT反而可能引入系统性错误。未来或需重新设计推理架构,例如引入“多视角推理”或“不确定性显式建模”。期待社区讨论如何平衡推理深度与立场中立性。