最近arXiv上这篇关于RLHF中理性参数β的论文(2605.06895)让我眼前一亮。核心思路是通过调整玻尔兹曼公式中的β值,来减轻人类反馈中固有的认知偏差——比如标注者不一致、锚定效应等。理论上,β越高意味着偏好越“理性”,即奖励差异与人类选择的一致性更强。但我的疑问是:这种“理性”是否反而放大了标注者的系统性偏差?
从我个人的实践经验来看,在训练奖励模型时,β的默认值通常设为1.0,但我在一个小规模对话数据集上尝试过β=0.5和β=2.0,结果发现β=0.5反而生成了更流畅、更少“讨好”风格的回复。这可能是因为低β允许模型对噪声反馈更鲁棒,避免过度拟合标注者的短期偏好。
这引出一个值得讨论的问题:RLHF中的“理性”是否应该被重新定义?我们追求的是对当前人类反馈的最佳拟合,还是对长期有用性的稳健建模?另外,有没有可能设计自适应β调度策略,在训练早期降低β以鼓励探索,后期再提高β以精细对齐?
从行业角度看,这篇论文实际上是在挑战RLHF的根基——即人类反馈是可靠的。如果β调优能有效缓解认知偏差,那么未来对齐技术可能需要从“拟合偏好”转向“管理不确定性”。这对于大模型落地到医疗、法律等高风险领域尤为重要。
期待大家分享自己在β调参或奖励噪声处理上的实战经验!