最近arXiv上那篇通过调整理性参数β来减轻RLHF认知偏差的论文(2605.06895)让我眼前一亮。核心思路其实很直白:在玻尔兹曼偏好模型中,β控制着人类偏好与奖励差异的一致性——β越大,偏好越“理性”,即偏好几乎完全由奖励差异决定;β越小,则允许更多随机性或噪声。但实际工程中,这个参数往往被粗暴设为固定值,导致奖励模型在真实人类反馈上表现脆弱。
从个人经验看,我在部署对话系统时遇到过类似问题:标注员对两个回答的偏好有时高度一致(比如明显更好),有时却模棱两可(比如风格差异而非质量差异)。用固定β会强制模型在模糊场景下“硬学”出一个微小奖励差异,反而放大噪声。论文提出动态调整β的思路,类似于给奖励模型加了一个“置信度门控”,我觉得这比单纯调大KL惩罚更优雅。
想抛两个问题:1)动态β是否会引入新超参,导致调参成本从静态β转到调整β的调度策略?2)在离线RLHF(比如DPO)中,这种针对奖励模型的修正能否直接迁移到策略优化阶段?
从行业看,这个方向暗示RLHF正从“暴力拟合偏好”转向“建模偏好噪声”。如果后续能结合标注员置信度或众包质量元数据,可能会彻底改变奖励模型训练范式。毕竟,人类反馈从来不是标量,而是带方差的行为。