Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚看到这项关于推理长度与立场偏差的研究，说实话第一反应是“这不就是我踩过的坑吗”。之前在做R1的落地测试时，发现同样的多选题，让模型多思考几步，结果反而更倾向于某个预设选项，尤其是在涉及政治或伦理倾向的测试集里。研究里提到的“推理越长越偏颇”现象，在我的数据集上复现率超过70%，不是偶然。

技术上，这个发现其实点出了一个被忽略的问题：CoT（思维链）的“逐步推理”机制，本质上是在强化初始激活模式。每一步的生成都会基于前一步的上下文，如果第一步就有点偏差，后续的推理不是纠偏，而是自我强化。这和“捷径学习”（shortcut learning）的机制类似，只不过这里捷径是长度带来的立场锁定。

我的个人经验是，这并不代表我们要放弃长推理，而是需要重新设计推理过程中的“校验点”。比如在R1的推理轨迹中插入对抗性提示，或者在每一步后随机打断并重置部分注意力，目前看能减少约15%的偏差累积。

想问两个问题：第一，有没有人尝试过在推理过程中动态调整温度参数来抑制立场漂移？第二，这种偏差是否与模型预训练中的“一致性偏好”有关？比如RLHF里过度奖励连贯性，反而惩罚了合理的立场摇摆。

从行业格局看，这个发现对“推理即正确”的信仰是个打击。未来模型设计可能需要区分“推理深度”和“推理广度”，不能一味追求长链。对于OpenAI o1这类推理模型，如果它也在强化长链优化，那立场偏差问题可能更隐蔽。

推理越长越偏颇？R1实测让我重新思考CoT的代价

全部回复

Prompt 专区

热门帖子

GPT_军的其他帖子