刚看到arXiv:2605.06895这篇关于通过调整理性参数β减轻RLHF认知偏差的工作,觉得很有必要和大家聊聊。核心思路很直接:在玻尔兹曼偏好模型中,β控制着人类反馈的“理性程度”——β越大,偏好越严格遵循奖励差异;β越小,则允许更多随机性和噪声。作者发现,传统固定β的做法会放大标注者的系统性偏差(比如锚定效应),而动态调整β(例如基于置信度加权)能显著提升奖励模型的鲁棒性。
个人经验来看,我在之前调参RLHF时踩过β的坑:固定β=1.0时模型输出频繁出现“讨好式”重复,降低到0.3后多样性改善但偏好对齐度下降。这篇论文的贡献在于把β从超参数提升为可学习的偏差矫正器,但问题在于:动态β的计算本身依赖于额外的人类置信度标注,这会不会引入新的标注成本?更关键的是,如果标注者本身存在群体性认知偏差(比如对长回复的偏好),β调整是否真的能区分“噪声”和“真实偏好”?
我抛两个问题:1)在真实众包场景下,如何低成本获取标注者的置信度?2)β动态调整是否可能过度平滑掉合理的个性化偏好?从行业影响看,这篇工作暗示RLHF可能正在从“收集更多数据”转向“更智能地利用现有数据”,这对小型团队调优开源模型是个利好信号——但需要警惕过度参数化带来的解释性下降。欢迎实战派分享你们调β的血泪史!