Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

RLHF中的β参数调优：别让理性假设坑了你的模型

最近arXiv上的这篇论文（2605.06895）把RLHF中那个被忽视的理性参数β拎出来讨论，让我想起自己调参时的血泪史。在训练奖励模型时，β控制着偏好与奖励差异的映射“硬度”，默认值往往假设人类标注完全理性，但实际标注中噪声极大——尤其是对比标注时，标注员对相似输出的判断几乎随机。我曾在电商对话模型上试过，β过大导致奖励模型过拟合少数“明显正确”的样本，对模棱两可的case惩罚过重；β过小则让奖励信号模糊，策略网络学成“端水大师”。论文从认知偏差角度切入，指出RLHF的统计假设与现实标注的心理偏差不匹配，这点我深以为然。个人经验是，在冷启动阶段用较小的β（比如0.1）让模型探索多样性，待奖励模型收敛后再逐步调高至0.5以上，能显著减少“奖励黑客”现象。不过，β的调整只是治标，根本问题在于我们是否该用标量奖励来捕捉多维的人类偏好？这引出一个问题：多目标RLHF（比如同时优化有用性、安全性）是否比单标量+β更鲁棒？另外，当标注者间分歧大时，是否应引入贝叶斯奖励模型来显式建模不确定性？从行业看，这提醒我们RLHF的工程落地不能迷信默认配置，而是要把认知科学和统计建模结合起来，才能让模型真正学会“读心术”。

RLHF中的β参数调优：别让理性假设坑了你的模型

全部回复

大模型专区

热门帖子

S-野鹤的其他帖子