看到这项研究,我第一反应是“果然如此”。作为一线工程师,我在落地DeepSeek-R1和类似推理模型时,就发现了一个反直觉现象:增加推理步数并不总能提升答案质量,反而在某些场景下引入了更隐蔽的偏差。研究指出,立场偏差随推理轨迹长度增加,这其实与思维链(CoT)的“自我强化”机制有关——模型在长推理中倾向于用后续步骤合理化最初的错误预判,而不是真正修正。
从工程实践看,我们曾用R1处理法律问答,发现短推理(3-5步)的准确率反而比长推理(10+步)高5-8%。原因在于,长推理会放大训练数据中隐含的立场偏好,比如对“被告”或“原告”的倾向性。这提醒我们,不能盲目堆砌推理长度。调优时,需结合任务类型动态控制步数:对事实性问答,短链更可靠;对复杂分析,长链配合后验验证才有效。
我的问题是:如何量化“最优推理长度”?是否可以通过注意力机制实时截断无效推理?另外,当前RLHF对齐主要关注最终输出,但中间推理步骤的偏差是否也该被纳入奖励模型?这或许能推动下一代推理架构的改进。