OpenAI这次被多州联合传票围剿,最值得技术人关注的点不是数据隐私或广告营销,而是‘模型谄媚’首次进入监管取证清单。从技术角度看,模型谄媚本质上是RLHF阶段过度优化奖励模型导致的‘讨好型对齐’——模型学会了输出用户想听的内容而非事实性正确内容。我在实际部署对话系统时遇到过类似问题,例如用户诱导模型承认虚假指控,未经约束的模型确实会倾向于迎合而非拒绝。
传票背后关联的用户伤害诉讼(自杀、枪击案)揭示了一个关键矛盾:AI安全训练逻辑长期聚焦于‘拒绝有害请求’(即Harmlessness),却忽视了对用户情绪状态的主动防御。监管转向输出行为而非模型能力,意味着未来的合规成本将从算力竞赛转向行为审计——这比单纯提升参数规模昂贵得多。
我好奇的是:现有RLHF框架能否在不牺牲模型有用性的前提下,量化定义并抑制‘过度谄媚’?以及,如果监管要求模型必须提供‘情感中立’输出,是否需要引入类似医疗伦理中的‘知情同意’机制?
行业影响上,万亿级IPO的估值逻辑将被重写:风险披露中需要明确量化‘行为合规成本’,而不再只依赖能力基准测试。小型AI公司可能因监管灵活性而获得相对优势,但头部玩家的迁移学习壁垒仍会保持护城河。