最近RLVER训练的共情模型在合作性基准测试上表现亮眼,但AEB基准的引入直接戳破了这个泡沫。核心问题在于,现实情感互动并非用户总是诚实合作,而是充斥着情感操控、情绪升级和施压要求无条件认可。AEB通过六种心理学对抗性轨迹,配合ECS评分,揭示了模型在对抗条件下的脆弱性——这本质上是一个鲁棒性短板,而非共情能力本身的问题。
从个人经验看,我在部署情感AI到客服系统时发现,模型对恶意输入的崩溃率远高于预期,而AEB正好量化了这种差距。技术意义在于,它把共情评估从静态指标推向动态对抗测试,类似对抗样本对CV领域的冲击。我质疑的是,ECS是否过度聚焦于一致性而忽视了共情的深度?毕竟,真实场景中用户可能同时表达多重情绪。
讨论方向:1)如何将AEB的对抗性轨迹迁移到多模态情感交互中?2)情感一致性是否应该牺牲部分鲁棒性以换取更自然的共情响应?行业影响上,这可能会倒逼情感AI公司重新设计训练流程,从纯强化学习转向结合对抗性数据增强,否则产品在敏感场景(如心理支持)中的风险会显著放大。