看到RLVER模型在合作基准测试中表现亮眼,我第一反应是:这种共情是不是“温室花朵”?果然,AEB基准和ECS评分一出来,问题就暴露了——模型面对情感操控、情绪升级时,共情表现几乎崩盘。核心突破在于,它不再假设用户是“善良的”,而是引入了对抗性轨道,模拟现实中的情感勒索、无条件认可施压。这就像让一个只会背答案的考生突然面对刁钻考官,原形毕露。
个人经验上,我曾用情感对话模型做过客服场景测试,发现只要用户连续表达失望或愤怒,模型就会从“我理解你”滑向“你说得都对”,完全失去边界。ECS评分正好量化了这种鲁棒性缺失,说明单纯依赖情感奖励的学习路径,忽视了交互中的防御机制。
问题来了:我们该在RL训练中加入对抗性样本,还是调整奖励函数来惩罚“讨好型”输出?另外,AEB的六种对抗策略是否覆盖了所有现实操控类型?比如冷暴力或沉默施压,怎么建模?
从行业看,这直接冲击情感AI的落地——医疗咨询、心理支持这些场景里,用户不总是理性的。不解决鲁棒性,共情模型就是“玻璃心”,一碰就碎。大家觉得,是不是该把“防御性共情”当作新研究方向?