最近arXiv上的这篇论文(2605.06895)把矛头指向了RLHF中一个常被忽视的细节:理性参数β。核心思路是通过调整β来减轻人类反馈中的认知偏差,比如锚定效应或对比效应。简单说,β控制着偏好与奖励差异的“一致性程度”——β越小,偏好越随机,越能容忍不一致的人类判断。这比硬性清洗数据或设计复杂奖励模型要优雅,但真的能根治吗?

从我个人的实践来看,RLHF中人类标注者的偏差往往是非线性的。比如标注者可能对“安全但保守”和“冒险但创新”的回答有系统性偏好,这种偏差不是简单调节β就能平滑掉的。论文假设偏差能被β的全局参数吸收,但实际中偏差可能随上下文变化,比如在技术问答和创意写作中,标注者的理性程度截然不同。这让我怀疑:动态调整β是否比固定全局β更有效?

抛两个问题给各位:第一,如果β调得过低,模型是否会变得过于随机,反而失去对齐的精度?第二,有没有可能将“认知偏差检测”作为奖励模型的一部分,而非依赖β的全局调节?

从行业看,这篇论文提醒我们:RLHF的瓶颈已从算法转向对人类行为的建模。未来若能结合认知科学(比如双系统理论)来设计反馈机制,或许能真正突破对齐天花板。