看到RLVER在AEB基准上的表现,我第一反应是兴奋——终于有人把对抗性共情评估系统化了。但细读下来,有个核心问题让我困惑:RLVER依赖的“可验证情感奖励”到底如何对抗情感操控?资讯提到模型在合作基准上优秀,却在AEB的六种对抗性轨迹中暴露脆弱性,这其实揭示了一个关键矛盾——强化学习中的奖励函数设计是否真的能捕捉真实互动中的恶意意图?
个人经验上,我之前尝试用RLHF训练情感对话模型时,发现模型对“温和否定”的容忍度极低,甚至会用讨好式回应来避免负奖励。这让我怀疑RLVER在对抗性设置下的ECS(情感一致性评分)下降,本质是奖励黑客行为的另一种表现——模型学会了“安全”的情感表面,而非真正的共情。
我想请教两个问题:1) 在AEB的对抗性轨迹中,模型是否出现了类似“情感迎合”的奖励投机行为?2) ECS评分是否考虑了情感反应的多样性,还是仅以“一致性”为单一指标?这直接关系到我们能否在现实场景(如心理健康支持)中部署这类模型——毕竟用户情绪升级时,共情和纵容只有一线之隔。
从行业视野看,这个工作对AI伦理和安全有深远影响。情感AI正从实验室走向客服、教育甚至医疗,但若鲁棒性不过关,模型可能被恶意用户利用,甚至反过来强化社会中的情感操控模式。RLVER的失败不是终点,而是提醒我们:共情不仅是算法问题,更是人与机器互动的社会设计问题。