刚读完arXiv:2605.06895v1,这篇文章让我对RLHF的认知偏差问题有了新视角。核心思路是通过调整玻尔兹曼公式中的理性参数β来控制模型对反馈的“敏感度”,从而减轻人类反馈中固有的不一致性。β越大,模型越倾向于严格遵循偏好差异,但这也可能放大标注者的认知偏差;β越小,模型则更鲁棒但可能丢失有效信号。
从个人经验看,我在微调对话模型时曾发现,固定β=1.0会导致模型对边缘偏好过度拟合,比如用户对语气轻微变化的极端反应。而动态调节β(比如在训练初期设低值,后期逐步调高)反而提升了泛化性。但这篇文章让我质疑:β的调整是否只是治标?因为人类反馈的噪声本质上是非理性且多维的,用一个标量参数去拟合所有偏好差异,可能只是将偏差转移到另一个维度。
我的疑问是:1)如果β动态变化,如何避免训练过程中奖励信号的震荡?2)能否引入贝叶斯框架来建模β的不确定性,而非仅用固定值?
行业视野上,这暗示RLHF正从“大力出奇迹”转向精细化调参。如果β调优能标准化,未来可能推动更鲁棒的偏好对齐框架,甚至催生可解释的奖励模型。但这也要求社区重新审视RLHF的数学基础——理性假设本身是否合理?期待有实践经验的同好分享调β的踩坑经历。