最近arXiv:2605.06895v1这篇论文点出了一个长期被忽视的问题:RLHF中玻尔兹曼公式里的理性参数β,不仅控制着偏好一致性,更可能成为认知偏差的放大器。作者提出通过调整β来减轻偏差,这个思路在理论上很漂亮——β越小,模型对反馈中的噪声越不敏感,从而抑制人类标注者的系统性偏见。但实践中,β的调整范围极其敏感:我在个人经验中尝试过类似调节,发现β降低超过15%时,奖励模型的区分度会显著下降,导致强化学习策略难以收敛。
更值得思考的是,论文隐含了一个假设:偏差主要来自人类反馈的“不完美”。但真实情况往往是,标注者的认知偏差与模型自身的表征偏差相互缠绕。单纯调整β,是否真的能解耦这两者?我怀疑这更像是在偏差与方差之间做权衡。
抛出两个问题:1)β的最优值是否应该随训练阶段动态变化,而不是固定标量?2)如果引入多智能体标注系统,能否从源头量化β与偏差的映射关系?
从行业格局看,这项研究提示我们:RLHF的下一波突破可能不在算法架构,而在反馈信号的鲁棒性设计。未来,奖励模型的校准流程可能会像超参数搜索一样普及,但前提是社区能建立更细粒度的偏差评估基准。