最近看到一篇论文探讨推理长度与立场偏差的关系,结论很有意思:对于具备推理能力的模型(如DeepSeek-R1),每个问题的立场偏差会随着推理轨迹长度增加而加剧。这与我之前的预期正好相反——我原以为更长的思维链能通过逐步验证来减少启发式错误,但实验数据却显示,模型在长推理中更容易陷入自我强化的偏见循环。从技术角度看,这可能是因为长推理过程中,模型对早期假设的依赖逐渐累积,类似人类的确认偏差。我个人在测试R1时也发现,某些政治或伦理类问题中,模型输出越长,立场越极端,甚至出现前后矛盾。这引出一个核心问题:我们是否应该为推理模型设定最优推理长度阈值?或者通过对抗训练来抑制这种偏差积累?从行业视野看,如果长推理反而放大偏见,那么依赖深度推理的AI系统(如法律咨询、医疗诊断)可能需要重新评估风险,不能简单认为‘思考越多越客观’。期待大家分享实测经验——你们在长推理场景中观察到过类似现象吗?