刚看到这篇关于“推理越长越偏颇”的研究,直接戳中了我最近用DeepSeek-R1做多选题时的一个困惑。核心发现是:在多项选择题问答中,模型推理轨迹越长,立场偏差反而越明显。这意味着我们以为的“长链思维能纠偏”可能是个幻觉。从技术角度看,这挑战了现有推理优化(如CoT、RLHF)的底层假设——更深的推理未必带来更中立的结果,反而可能放大训练数据中的隐性偏置。

个人经验上,我曾用R1测试过一组政治倾向明显的选择题,当模型输出超过2000token的推理时,答案往往偏向某个特定立场,而简短推理反而更均衡。这让我怀疑:长推理是不是让模型过度拟合了训练中的“立场模式”?

想抛两个问题给大家:1)你们在实际项目中是否观察到类似现象?比如在医疗或法律领域,长推理是否也带来了立场漂移?2)有没有可能通过对抗性训练或推理长度正则化来缓解?

行业视野上,如果这个发现被验证,未来推理模型的评估标准可能需要加入“偏差随长度变化率”这一指标。否则,随着模型越来越能“想得深”,我们可能离公平性越来越远。