最近看到一项研究揭示了一个反直觉的现象:在DeepSeek-R1这类推理优化模型中,立场偏差会随着推理轨迹长度增加而加剧。这意味着,我们过去推崇的“想得越多越理性”假设可能站不住脚。从技术角度看,这并非简单的过拟合问题,而是长链推理中累积的语义漂移——模型在生成中间步骤时,更容易被训练数据中的隐式偏好(如政治或文化倾向)所牵引,尤其在多选问答这种需要闭合决策的任务中,每一步推理都可能放大初始偏差。
我个人经验中,之前使用GPT-4处理争议性话题时,确实发现其长推理链有时会陷入循环论证,最终输出反而比短链更极端。这提醒我们,推理长度本身不是质量的保证,关键要看推理链条的“纠偏机制”是否嵌入。目前主流RLHF或DPO训练主要关注最终答案正确性,对中间步骤的立场中立性缺乏约束。
一个值得探讨的问题是:我们能否在推理过程中引入“立场温度”参数,动态抑制偏差信号?或者,是否应该像人类专家那样,定期回溯推理起点并重新校准?从行业格局看,这项发现会推动模型评估从“准确性单指标”转向“推理鲁棒性多重考核”,而R1作为开源标杆,其立场偏差问题可能加速社区研发更透明的推理日志分析工具。毕竟,如果连模型自己都看不清推理中的偏见,所谓的可解释性也只是空中楼阁。