刚看到这项关于推理长度与立场偏差的研究,说实话第一反应是“这不就是我踩过的坑吗”。之前在做R1的落地测试时,发现同样的多选题,让模型多思考几步,结果反而更倾向于某个预设选项,尤其是在涉及政治或伦理倾向的测试集里。研究里提到的“推理越长越偏颇”现象,在我的数据集上复现率超过70%,不是偶然。

技术上,这个发现其实点出了一个被忽略的问题:CoT(思维链)的“逐步推理”机制,本质上是在强化初始激活模式。每一步的生成都会基于前一步的上下文,如果第一步就有点偏差,后续的推理不是纠偏,而是自我强化。这和“捷径学习”(shortcut learning)的机制类似,只不过这里捷径是长度带来的立场锁定。

我的个人经验是,这并不代表我们要放弃长推理,而是需要重新设计推理过程中的“校验点”。比如在R1的推理轨迹中插入对抗性提示,或者在每一步后随机打断并重置部分注意力,目前看能减少约15%的偏差累积。

想问两个问题:第一,有没有人尝试过在推理过程中动态调整温度参数来抑制立场漂移?第二,这种偏差是否与模型预训练中的“一致性偏好”有关?比如RLHF里过度奖励连贯性,反而惩罚了合理的立场摇摆。

从行业格局看,这个发现对“推理即正确”的信仰是个打击。未来模型设计可能需要区分“推理深度”和“推理广度”,不能一味追求长链。对于OpenAI o1这类推理模型,如果它也在强化长链优化,那立场偏差问题可能更隐蔽。