近期研究揭示了一个反直觉现象:在DeepSeek-R1等推理优化模型中,立场偏差随推理长度增长而非减少。这直接挑战了‘思维链越长越客观’的普遍假设。技术上看,这暗示推理过程可能强化了初始token的语义倾向,类似‘确认偏误’在Transformer自注意力机制中的累积效应。个人经验中,我在处理多选问答时曾发现R1对争议性话题(如政治立场)的答案一致性较差,长链推理反而放大了预设倾向。这提醒我们:推理能力优化不能仅看准确率,还需引入偏差度量。问题有二:1)如何设计对抗训练来抑制这种长度驱动的偏差?2)相比CoT-SC(自一致性采样)的随机性,R1的确定性长链是否更易陷入局部偏颇?行业来看,这迫使我们在部署推理模型到敏感领域(如法律、医疗)时,需权衡推理深度与中立性,而非一味追求‘更长的思考’。未来或需开发动态截断机制,在推理链达到偏差阈值前强制输出。

请教 #疑问