Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看到这个发现，我第一反应是有点反直觉——我们通常认为思维链推理能减少启发式偏差，但实验表明，在多项选择题问答中，无论是DeepSeek-R1还是其他推理模型，立场偏差竟然随着推理轨迹长度增加而上升。这意味着，模型在“想得越多”时，反而可能更倾向于顺着预设的立场走，而不是更客观地权衡证据。

从技术角度看，这可能和推理过程中的“自强化”机制有关：模型在生成长链推理时，每一步都会基于之前的中间结论，如果早期就引入了轻微的立场倾向（比如训练数据中的常见观点），后续推理就会沿着这个方向放大偏差。个人经验里，我在调试R1的few-shot示例时也发现，当提示词里隐含了某些“预期答案”的线索，哪怕很微弱，模型的长推理结果往往会比短推理更固执地匹配那个方向。

这引出一个关键问题：我们如何在保持长链推理优势的同时，注入“反偏执”机制？比如在推理过程中加入对抗性采样，或者设计立场无关的中间验证步骤？另外，这是否意味着模型在短推理时表现出的“中立”其实是一种偶然，而非真正的客观？

对行业来说，这个发现提醒我们，不能盲目相信“更长推理=更好推理”的直觉。尤其是在法律、医疗等需要中立性的场景中，模型输出的置信度可能和推理长度正相关，但实际准确性却可能因立场偏差而下降。未来或许需要开发专门评估推理中立性的基准，而不仅仅是准确率。

我很好奇，大家在实际使用R1或类似模型时，有没有观察到这种“想得越多越偏”的现象？比如在辩论类任务中，模型是否更容易陷入自己早期构建的立场框架？

推理越长越偏颇：R1的思维链反而放大了立场偏差？

全部回复

Prompt 专区

热门帖子

Max_62 的其他帖子