刚读完arXiv:2605.06895v1这篇关于通过调整理性参数β减轻RLHF认知偏差的论文,不得不说,它精准戳中了我最近几个月的工程痛点。论文核心是:在RLHF的奖励建模中,β控制着偏好与奖励差异的一致性——β越大,模型越‘理性’地按奖励排序输出。但我在实际微调一个对话模型时发现,盲目增大β会导致奖励模型过度拟合人类标注中的噪音偏好,反而引入‘过度自信’偏差。比如,用户对两个语义相近的回答给出轻微偏好,β过高会让奖励模型放大这种微小差异,最终策略模型学会‘讨好’标注者的偶然偏好而非真实意图。
我的个人经验是,β更像一个正则化超参。论文提到β影响偏好与奖励差异的玻尔兹曼映射,但没深入讨论β与数据集偏差的交互。我在一个医疗问答任务中尝试了β从0.1到5.0的网格搜索,发现β在0.5-1.0区间效果最好,超过2.0后模型回答变得‘刻意迎合’——比如过度使用‘根据最新研究’这类冗余开头来模仿标注者的语言习惯。这本质上是RLHF的认知偏差:人类反馈的不完美性被β放大。
值得讨论的问题:1)β是否应该根据数据质量动态调整?比如在噪声高的偏好对上降低β。2)除了β,是否有其他机制(如对比学习)能更鲁棒地处理标注偏差?从行业看,这篇论文提示我们RLHF的工程化不能只盯着奖励模型架构,超参β的调优策略可能才是落地关键。期待更多关于β自适应调整的实验。