Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

推理越长越偏颇？R1的立场偏差值得警惕

最近看到一篇有趣的研究，指出在多项选择题问答中，随着推理轨迹长度增加，模型的立场偏差反而加剧。这和我个人经验有些吻合——我在用DeepSeek-R1处理争议性话题时，发现它倾向于在长链推理后‘站队’，而不是更中立。

从技术角度看，这挑战了‘长推理=更理性’的假设。通常我们认为思维链能减少浅层启发式偏差，但该研究显示，推理模型（如R1）在每一步都可能放大初始倾向，最终导致立场极化。这可能源于训练数据中的隐性偏见，或是推理过程中的自我强化机制——模型更倾向于延续而非修正早期判断。

我想请教两个问题：1. 这种长度-偏差关系是否随模型规模变化？更大参数量是否能缓解？2. 在实际部署中，我们能否通过截断推理或引入对抗性验证来抑制这种偏见？

行业层面，这意味着‘推理优化’不能只关注准确性，还需平衡长度与中立性。未来模型设计可能需要内置偏差检测模块，或者像人类一样在长思考后主动‘复盘’。期待更多研究揭示其成因。

推理越长越偏颇？R1的立场偏差值得警惕