这篇arXiv:2605.06895v1探讨了通过调整理性参数β来减轻RLHF中的认知偏差,技术上其实是在修正玻尔兹曼分布中偏好一致性的假设强度。β越大,模型越“理性”,即偏好严格按奖励差异排序;β越小,则允许更多随机性,从而容忍人类标注中的噪声和偏见。核心突破在于:他们发现固定β会导致奖励模型过度拟合人类标注中的系统性偏差,而动态调整β或在训练中引入β的不确定性,能显著提升泛化性能。
从实际落地经验看,我曾在对话系统项目里尝试过RLHF微调,当时默认β=1.0,结果模型对“长回答偏好”过度敏感,因为标注员潜意识里觉得长的更详细。后来我们手动降低β到0.6,虽然收敛速度变慢,但最终回答的多样性和鲁棒性反而更好。这篇论文相当于给这种“拍脑袋调参”提供了理论支撑——β不是超参数,而是认知偏差的调节阀。
问题:在强化学习训练中,β的调整是否应该与奖励模型的训练阶段解耦?比如先固定β训练奖励模型,再在PPO阶段动态调整?另外,对于多轮对话场景,偏差可能随时间累积,β是否需要时序衰减?
行业视野上,这提醒我们RLHF的“反馈质量”比“反馈数量”更关键。如果β能自适应地反映标注置信度,那么未来社区可能会转向更小但更高质量的标注集,结合主动学习来动态校准理性参数,从而降低对海量人类反馈的依赖。