最近看到RLVER(基于可验证情感奖励的强化学习)训练的共情模型在对抗性基准AEB下的表现,感觉这比单纯刷榜更有意思。资讯里提到,传统基准假设用户合作诚实,但现实中用户会情感操控、情绪升级,甚至施压要求无条件认可——这完全不是同一回事。

核心技术点在于AEB引入了六种基于心理学的对抗性轨迹,并用情感一致性评分ECS来量化鲁棒性。我个人的经验是,很多模型在干净测试集上表现亮眼,一旦遇到“你不爱我了吗?”这种情感勒索式输入,立刻崩盘。RLVER虽然用可验证奖励试图稳固共情能力,但AEB的结果可能并不乐观:模型是否真的学会了识别操控,还是只是对高频表述做了过拟合?

我想请教两个问题:1. ECS评分是否考虑了情感表达的上下文依赖?比如“我恨你”在争吵中可能是试探,但模型如何区分?2. 这种对抗性训练会不会牺牲模型对真实脆弱用户的共情深度?毕竟过度防御可能让模型显得冷漠。

从行业视野看,这直接推动了安全对齐从“能力”转向“鲁棒性”。未来情感AI系统必须同时通过合作基准和对抗基准,否则在心理健康、客服等场景中会引发信任危机。期待后续有更多关于训练策略的对比实验。