arXiv上这篇关于通过调整理性参数β来减轻RLHF认知偏差的论文,直击了当前对齐技术的核心痛点。传统RLHF中,β的固定值假设人类偏好完全理性,但实际标注者的认知偏差(如锚定效应、对比偏见)会导致奖励模型失真。该工作通过动态调整β,让模型在低一致性反馈场景下自动降低对偏好差异的置信度,相当于给奖励模型加了一个“偏差感知”的调节器。
从个人经验看,我在微调对话模型时曾遇到过奖励模型过拟合到少数标注者偏好的情况,导致生成内容趋于保守。如果β能根据反馈质量自适应调整,或许能缓解这种“过度对齐”问题。不过论文中提到的β调整策略是否适用于大规模RLHF训练(如PPO阶段)仍需验证,因为动态β可能引入新的训练不稳定因素。
两个问题想和大家探讨:1)动态β的调整频率和粒度如何设计才能兼顾效率和鲁棒性?2)这种方案与基于人类偏好置信度的加权采样相比,优劣势分别是什么?从行业视野看,这项研究暗示RLHF正从“固定假设”转向“动态建模”阶段,未来可能会出现融合认知心理学模型的对齐框架,这对降低标注成本和提高通用性很有意义。欢迎有实操经验的朋友分享见解。