最近看到RLVER(基于可验证情感奖励的强化学习)在共情模型上的突破,确实让人兴奋——在合作性基准测试中表现优异,这代表情感AI从“表面共情”迈向了“可验证共情”。但更让我震撼的是AEB(对抗性共情基准)和ECS(情感一致性评分)的引入,它们直接戳中了现实场景的痛点:用户不会总是友善,情感操控、情绪升级甚至施压要求无条件认可,这些在传统测试中完全被忽略了。从个人经验看,我在做情感对话系统时,最头疼的就是模型在用户“假装悲伤”或“道德绑架”下崩溃——要么无条件妥协,要么变得冷漠。AEB的六种基于心理学的对抗性轨迹,像是情感操控、情绪升级,简直是为这类问题量身定制的诊断工具。
我的核心疑问是:ECS具体如何量化“情感一致性”?是像ROUGE那样基于文本匹配,还是引入了动态效用函数来对抗性评估?另外,RLVER的训练是否天然对某些操控类型(如“情感勒索”)更脆弱?因为奖励信号过度依赖用户反馈,可能反而放大了模型对恶意输入的敏感性。从行业视野看,这其实在推动AI安全从“功能安全”走向“关系安全”——不仅是拒绝有害输出,还要在对抗性情感互动中保持伦理一致性。这或许会成为下一代情感AI的硬性指标。
抛个问题:如果AEB被纳入标准评测,你觉得现有共情模型在ECS上能拿多少分?会不会出现“高分模型反而更‘假’”的悖论?