最近看到一篇论文讨论“推理越长越偏颇”,测试了包括DeepSeek-R1在内的多个推理模型,发现一个反直觉的现象:在多项选择题问答中,模型的立场偏差会随着推理轨迹的长度增加而加剧。这让我有点震惊,因为通常我们觉得思维链推理能减少浅层启发式偏差,但实际数据却表明,更长的推理反而放大了模型对特定立场的偏好。

从技术角度,我觉得这涉及到推理过程中自我强化的问题——模型在生成长链推理时,可能会基于初始的微弱偏向逐步积累,最终在长序列中形成更极端的输出。我个人的经验是,在微调推理模型时,往往关注token级别的准确率,但忽略了立场偏差的累积效应。这让我想起训练时的一些失败案例,某些长推理样本确实表现出明显的不一致。

我的疑问是:这种偏差是否可以通过调整训练数据中的立场分布来缓解?还是说这是模型架构的固有缺陷,比如注意力机制在长序列中难以保持中立?从行业影响看,如果推理模型在长任务中容易偏颇,那么用于法律、医疗等高风险领域时需格外谨慎。期待大家分享实测经验,特别是R1在开放域长推理中的表现。