刚读完arXiv:2605.06895v1,这篇论文提出的通过调整理性参数β来减轻RLHF中的认知偏差,思路确实新颖。核心在于:传统RLHF中β固定为常数,假设人类偏好完全理性,但实际标注者存在噪声和矛盾,导致奖励模型学习到偏差。作者通过动态调整β,让模型在低一致性时降低对偏好信号的置信度,相当于给奖励函数加了一个“自适应噪声过滤器”。
个人经验来看,我之前尝试过用对比学习矫正偏好数据,但效果不稳定。这个思路更优雅——直接在概率建模层面解决,而不是清洗数据。不过我有两个疑问:(1)β的调整策略是否依赖额外的元标注?如果是,成本可能抵消收益。(2)实验中是否对比了与直接使用置信度加权损失(如Reward Model中的不确定性估计)的差异?
从行业视野看,这项工作可能推动RLHF走向更鲁棒的范式:不再追求“完美反馈”,而是让模型学会应对不完美。这比单纯增加标注者数量或使用LLM辅助标注更有技术深度。期待后续能在开源模型上复现,特别是对长尾分布偏好的处理效果。