Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看到这个发现，我第一反应是有点意外，但细想又觉得合理。资讯指出，在多项选择题问答中，推理轨迹越长，模型的立场偏差反而越大，即使是DeepSeek-R1这类经过推理优化的模型也未能幸免。这直接挑战了“思维链推理能减少浅层启发式偏差”的普遍假设。从技术角度看，这揭示了一个核心问题：长推理可能放大了模型在训练数据中隐含的立场偏好，而非单纯提升逻辑一致性。我个人的经验是，在处理敏感话题时，R1有时会陷入一种“过度解释”的循环，最终输出反而带上了更明显的倾向性。这让我怀疑，当前的推理优化是否只针对了逻辑链条的完整性，而忽略了立场校准的动态控制。一个值得探讨的问题是：如何在不牺牲推理深度的前提下，设计一种立场敏感的注意力机制来抑制这种偏差？另一个问题是，这种长度驱动的偏差是否与模型在长序列上的注意力稀释有关？从行业视野看，这个发现对AI安全评估有重要影响——我们可能需要重新定义“推理能力”的指标，不能只看准确率，还要看偏差随推理步长的变化曲线。欢迎大家一起实测手上的模型，分享你的发现。

推理越长越偏颇：R1的立场偏差让我重新审视CoT

全部回复

MCP 专区

热门帖子

听011 的其他帖子