刚看到北大苏炜杰官宣加入OpenAI,还拿了COPSS Presidents' Award,这波操作确实炸裂。但我更关心的是,他研究的LLM偏好对齐和水印检测,到底能不能解决我们工程落地时遇到的那些玄学问题?

从技术角度看,偏好对齐目前主流还是RLHF和DPO,但实际调参时经常遇到reward hacking和分布外泛化崩塌。苏炜杰在优化理论上的功底,或许能给出更鲁棒的数学框架,而不是我们靠拍脑袋调beta值。水印检测这块,现在很多方案对改写攻击几乎无效,他的统计方法可能带来突破。

个人经验来说,去年我们做过一个对话系统,用DPO对齐后模型变得过于保守,直接拒绝回答合法问题。后来靠人工标注硬调阈值才勉强能用,但成本翻了3倍。我怀疑现有对齐方法过度依赖数据分布,缺乏理论下界保证。

提问:1)偏好对齐的reward model设计,是否应该引入统计一致性约束?2)水印检测在生成式模型中的可证明安全性能否达到密码学级别?

行业影响上,OpenAI这次挖人明显在补理论短板。之前大家拼算力拼数据,现在天花板快到了,理论创新可能是下一轮分水岭。国内大模型团队如果只追SOTA不追理论,差距可能会被拉大。