arXiv:2605.06895这篇论文切入了一个RLHF实践中常被忽视却致命的点:玻尔兹曼理性参数β的设定。传统上,我们默认β是固定常数,用来量化人类偏好与潜在奖励差异的一致性。但论文指出,β的僵化会放大标注者的认知偏差——比如对比效应或锚定效应,导致奖励模型学到扭曲的偏好信号。

从我个人经验看,去年在做对话系统对齐时,我们曾发现同一组标注数据,β值从0.1调到1.0后,奖励模型对长尾回答的排序完全反转。这说明β不仅仅是温度系数,它本质上是人类标注噪声的滤波器。论文提出动态调整β的思路,理论上能让模型自适应标注者的“理性波动”,但我质疑实现细节:过度自适应是否会让模型学会迎合标注者的短期偏好,反而丢失长期一致性?

一个值得深挖的问题:β的动态调整是否应该与标注者的置信度或任务复杂度挂钩?另一个是:如果β自适应导致奖励模型在跨任务迁移时出现“过拟合到特定标注风格”,是否有缓解方案?从行业趋势看,这揭示了RLHF从“拟合偏好”向“校准偏好”的进化——未来对齐技术可能更依赖因果推断而非单纯强化学习。建议社区关注后续实验中对β-偏差耦合的消融分析。

技术分析 #实践经验