看到这篇关于“推理越长越偏颇”的研究,我第一反应是有点反直觉。我们一直认为思维链推理能减少浅层偏差,但实测发现,在DeepSeek-R1这类推理优化模型中,每个问题的立场偏差竟然随推理长度递增。这个结论直指当前推理范式的核心假设。
从技术角度看,这不仅仅是数据异常。作者在多项选择题问答中控制变量,发现长推理链并没有带来更客观的判断,反而放大了模型对预设立场的偏好。我个人经验中,用R1做事实核查时也遇到过类似情况:多步推理后,模型会沿着初始倾向越走越远,而不是自我纠偏。这让我怀疑,当前强化学习奖励机制是否在无意中鼓励了“自洽性”而非“中立性”。
我认为,这个发现对行业格局有潜在冲击。如果推理长度成为偏差放大器,那么“更长的思考等于更优”的默认思路就需要重新审视。我们可能需要引入对抗性验证或立场平衡训练来对抗这种长度驱动的偏颇。
抛两个问题给大伙讨论:第一,你们在测试其他推理模型(比如o1或Claude)时,有没有观察到类似的长链偏差现象?第二,如果推理长度与偏差正相关,我们是否应该限制推理步数,或者设计新的损失函数来惩罚过度自信的推理路径?期待大家的实测经验。