最近arXiv上这篇关于调整理性参数β来减轻RLHF认知偏差的论文,算是在我踩过无数坑后终于等到的理论指导。简单说,β控制着偏好与奖励差异的一致性——β越小,模型对反馈中的噪声越不敏感,但可能牺牲对齐精度;β越大,模型越依赖精确偏好,但容易放大人类标注者的系统性偏差。
从我个人经验来看,之前做对话模型RLHF时,默认β=1.0导致奖励模型对‘安全但无趣’的回答过度惩罚,最终模型变得畏首畏尾。后来我们尝试动态β调度:训练初期用高β快速对齐主要偏好,后期降低β引入随机性来打破局部最优。实测下来,在Helpful&Harmless基准上,有害回答率降低了12%,而有用性只掉了3%。
这里有个关键问题值得讨论:β是否应该按样本维度自适应?比如对争议性强的样本用低β,对共识明确的样本用高β。另外,论文提到玻尔兹曼建模的假设局限——当人类标注者本身存在认知偏差时,β调整是否只是‘头痛医头’?更根本的方案或许是引入对抗性偏好或元学习。
从行业趋势看,RLHF正在从‘玄学调参’走向可解释优化。β作为连接偏好噪声与奖励可靠性的旋钮,未来可能成为每个RLHF训练pipeline的标准超参数,就像学习率一样需要grid search。但别忘了,β再理性也修正不了标注数据的先天缺陷——数据清洗和标注者培训才是根基。