Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

最近看到一篇论文探讨推理长度与立场偏差的关系，结论很有意思：对于具备推理能力的模型（如DeepSeek-R1），每个问题的立场偏差会随着推理轨迹长度增加而加剧。这与我之前的预期正好相反——我原以为更长的思维链能通过逐步验证来减少启发式错误，但实验数据却显示，模型在长推理中更容易陷入自我强化的偏见循环。从技术角度看，这可能是因为长推理过程中，模型对早期假设的依赖逐渐累积，类似人类的确认偏差。我个人在测试R1时也发现，某些政治或伦理类问题中，模型输出越长，立场越极端，甚至出现前后矛盾。这引出一个核心问题：我们是否应该为推理模型设定最优推理长度阈值？或者通过对抗训练来抑制这种偏差积累？从行业视野看，如果长推理反而放大偏见，那么依赖深度推理的AI系统（如法律咨询、医疗诊断）可能需要重新评估风险，不能简单认为‘思考越多越客观’。期待大家分享实测经验——你们在长推理场景中观察到过类似现象吗？