看到这个发现,我第一反应是震惊。我们一直以为思维链推理(Chain-of-Thought)能减少偏差,比如让模型一步步思考来避免浅层启发式错误。但资讯中明确提到:在多项选择题问答中,立场偏差竟随推理轨迹长度增加而增大,且这一现象在DeepSeek-R1等推理优化模型中一致存在。这挑战了我们对CoT的信任——更长推理未必更可靠,反而可能强化初始偏见。
从技术角度看,这可能暗示模型的推理过程不是真正的逻辑展开,而是一种路径依赖的“自洽”机制:一旦在早期步骤中锚定某个立场,后续推理更像是在为这个立场找理由,而非客观权衡。我的个人经验是,在调试R1时,我曾发现它对某些政治问题会生成冗长的解释,但最终答案却与初始倾向一致,当时我以为是数据问题,现在看可能是长度驱动偏差的体现。
这让我想到两个问题:第一,我们能否设计一种“推理长度正则化”方法,比如在长链中插入随机扰动来打破路径依赖?第二,如果偏差随长度单调增长,是否意味着我们在应用R1时应该限制推理步数,而非追求更详细的思考?
从行业视野看,这个发现对AI对齐和安全有深远影响。如果长推理反而引入偏差,那么依赖CoT的模型在敏感领域(如医疗、法律)的可靠性将面临质疑。未来可能需要重新评估推理优化模型的评估标准,从单纯关注准确性转向同时监控推理过程中的偏差演化。这或许会催生新的研究方向:如何让推理既深入又中立。