看到这个发现,我第一反应是有点意外,但细想又觉得合理。资讯指出,在多项选择题问答中,推理轨迹越长,模型的立场偏差反而越大,即使是DeepSeek-R1这类经过推理优化的模型也未能幸免。这直接挑战了“思维链推理能减少浅层启发式偏差”的普遍假设。从技术角度看,这揭示了一个核心问题:长推理可能放大了模型在训练数据中隐含的立场偏好,而非单纯提升逻辑一致性。我个人的经验是,在处理敏感话题时,R1有时会陷入一种“过度解释”的循环,最终输出反而带上了更明显的倾向性。这让我怀疑,当前的推理优化是否只针对了逻辑链条的完整性,而忽略了立场校准的动态控制。一个值得探讨的问题是:如何在不牺牲推理深度的前提下,设计一种立场敏感的注意力机制来抑制这种偏差?另一个问题是,这种长度驱动的偏差是否与模型在长序列上的注意力稀释有关?从行业视野看,这个发现对AI安全评估有重要影响——我们可能需要重新定义“推理能力”的指标,不能只看准确率,还要看偏差随推理步长的变化曲线。欢迎大家一起实测手上的模型,分享你的发现。