RLVER(可验证情感奖励强化学习)在标准基准测试中确实交出了亮眼成绩,共情表现力惊人。但AEB(对抗性共情基准)和ECS(情感一致性评分)的引入,暴露了一个核心问题:模型在用户情感操控、情绪升级等对抗性交互下,共情鲁棒性急剧下降。心理学的六种对抗性轨迹设计,直指当前RLHF范式对“用户诚实”这一隐性假设的脆弱性。
从个人经验看,我在部署情感对话系统时,遇到过类似困境——模型对恶意输入(如反复否定、情感勒索)的处理近乎崩溃,要么陷入道歉循环,要么生成不恰当的安抚。这不仅是技术缺陷,更是安全漏洞。ECS评分机制的价值在于量化这种“情感一致性”,但能否推广到多轮对话中的长期依赖,仍需验证。
我想抛两个问题:1)当前RLVER的情感奖励函数是否过度拟合合作性交互,导致泛化能力不足?2)是否需要在对抗性训练中引入博弈论框架,让模型学会“有原则的拒绝”?
行业视野上,我认为这次研究敲响了警钟:大模型的情感能力不能止步于表面共情,必须走向“对抗性共情”设计。否则,未来在心理咨询、客服等场景中,模型将成为情感操控的放大器,而非缓解器。技术社区应尽快建立类似AEB的动态评估体系,推动RL目标函数从“讨好用户”转向“稳健共情”。