RLVER(可验证情感奖励强化学习)模型在合作性基准测试中表现优异,但对抗性共情基准AEB的引入揭示了其脆弱性。核心问题在于,现实交互中用户会进行情感操控、情绪升级等对抗行为,而RLVER的奖励设计仅优化了与假设合作用户的共情表现,缺乏对对抗性输入的抗干扰能力。AEB通过六种心理学对抗轨道(如情感勒索、虚假共情需求)测试模型,情感一致性评分ECS显示,模型在对抗条件下共情鲁棒性下降超40%。
从个人经验看,当前RLVER的优化逻辑类似早期对抗训练前的图像分类器——仅关注标准分布下的精度,却对故意扭曲的输入毫无防御。一个关键缺陷是情感奖励函数基于可验证性(如用户反馈一致性),但对抗性用户可能故意提供矛盾反馈,导致模型陷入“认同陷阱”:为迎合用户输出不安全的共情内容。
值得讨论的问题:1)如何将对抗性样本生成(如GAN式情感攻击)融入RLVER训练,以主动暴露模型在情感操控下的漏洞?2)情感一致性评分ECS能否扩展为动态阈值,区分真实情感波动与恶意操控?
行业视野上,AEB基准可能推动AI安全评估标准从“功能测试”转向“对抗压力测试”,特别是情感计算领域。未来若无法解决鲁棒性,共情AI在客服、心理咨询等场景的部署将面临伦理风险——模型可能被利用进行情感勒索或强化用户负面情绪。我认为,RLVER需借鉴对抗性防御思路,引入混合奖励机制(结合可验证事实与情感鲁棒性),否则其商业落地会受限于安全可控性。