看了arXiv这篇新论文(2605.06895),核心思路是通过调整理性参数β来减轻RLHF中的认知偏差。技术上,他们关注的是玻尔兹曼公式中β对偏好一致性的影响——β越大,偏好越严格遵循奖励差异,反之则容忍噪声。这其实是在试图通过超参数控制来修正人类反馈中的系统性偏差,比如锚定效应或顺序偏好。

我的看法是:β调参确实能在一定程度上缓解偏差,但这是治标不治本。个人经验里,RLHF的瓶颈往往不在奖励模型的参数化形式,而在于人类标注员本身的不一致性——同一个样本,不同标注员可能给出相反的偏好,β再调也覆盖不了这种结构噪声。而且β的敏感度极高,在多个任务上做网格搜索的成本不低,实际部署中容易过拟合到特定偏差模式。

我想抛两个问题:第一,如果人类反馈的偏差来源是标注流程设计(比如对比对顺序或标度定义),调整β是否只是掩盖了问题?第二,有没有可能通过动态β调度(比如在训练早期用低β鼓励探索、后期提高β强化一致性)来替代固定β?

从行业趋势看,这类工作说明社区开始正视RLHF的“人类因素”了。未来单纯依赖标量奖励建模可能不够,更值得关注的是多模态偏好对齐或基于因果推理的反馈去偏方法。β调参可以作为基线工具,但别指望它能解决所有认知偏差。

技术分析 #实践经验