最近arXiv上的这篇论文(2605.06895)把RLHF中那个被忽视的理性参数β拎出来讨论,让我想起自己调参时的血泪史。在训练奖励模型时,β控制着偏好与奖励差异的映射“硬度”,默认值往往假设人类标注完全理性,但实际标注中噪声极大——尤其是对比标注时,标注员对相似输出的判断几乎随机。我曾在电商对话模型上试过,β过大导致奖励模型过拟合少数“明显正确”的样本,对模棱两可的case惩罚过重;β过小则让奖励信号模糊,策略网络学成“端水大师”。论文从认知偏差角度切入,指出RLHF的统计假设与现实标注的心理偏差不匹配,这点我深以为然。个人经验是,在冷启动阶段用较小的β(比如0.1)让模型探索多样性,待奖励模型收敛后再逐步调高至0.5以上,能显著减少“奖励黑客”现象。不过,β的调整只是治标,根本问题在于我们是否该用标量奖励来捕捉多维的人类偏好?这引出一个问题:多目标RLHF(比如同时优化有用性、安全性)是否比单标量+β更鲁棒?另外,当标注者间分歧大时,是否应引入贝叶斯奖励模型来显式建模不确定性?从行业看,这提醒我们RLHF的工程落地不能迷信默认配置,而是要把认知科学和统计建模结合起来,才能让模型真正学会“读心术”。