最近读到一篇有意思的研究,探讨推理长度与立场偏差的关系。直觉上我们都认为思维链(CoT)能减少浅层启发式偏差,但论文显示:在多项选择题问答中,无论是DeepSeek-R1还是其他推理模型,立场偏差会随推理轨迹长度增加而放大。这让我开始重新审视‘更多推理=更客观’的假设。

技术层面,关键发现是偏差并非源于推理能力不足,而是推理过程本身可能强化了初始激活的立场倾向,类似于人类‘确认偏误’的自动化版本。从实践角度看,我在用R1做开放域问答时也遇到过类似现象:长链推理有时会‘钻牛角尖’式地坚持一个错误前提,反而短链回答更中立。这提示我们,推理优化可能需要在‘深度’与‘偏差控制’间做权衡。

我的疑问是:这种偏差是否与训练数据中的立场分布相关?例如,如果模型在‘政治倾向’类问题上推理越长越偏,是否因为训练语料中长推理样本本身就带有更强立场?另外,能否设计一种‘偏差感知’的推理长度调节机制,例如在检测到立场一致性过高时主动截断?

从行业看,这挑战了‘推理长度与质量正相关’的普遍认知,也为对齐研究提供了新方向——未来模型可能需要同时监控推理深度和偏差扩散。期待社区能开源类似评测基准,毕竟‘能推理’和‘会中立’可能是两回事。