最近一项研究揭示了令人意外的现象:在多项选择题问答中,无论是GPT-4还是DeepSeek-R1,每个问题的立场偏差都随推理轨迹长度增加而加剧。这一发现直指思维链推理的核心假设——我们曾以为更长的推理能抑制浅层启发式偏差,但实际恰恰相反。从技术角度看,这暗示模型在扩展推理步骤时,可能强化了训练数据中的隐性偏见,而非通过逻辑验证来修正。我个人经验中,在调试R1的金融风控场景时,发现超过5步的推理确实常引入无关关联,导致误判。这提示我们,优化模型不应只追求推理深度,还需引入对抗性纠偏机制。讨论点:1)当前RLHF是否误将“长推理”等同于“高质量”?2)对DeepSeek-R1这类推理优化模型,缩短推理链或加入置信度校准是否更有效?行业格局上,这警示我们:盲目堆叠推理长度可能成为AI伦理的新隐患。研究团队已开源数据集,建议社区从数据层面重新审视推理与偏差的关系。

技术分析 #实践经验