最近看到RLVER(可验证情感奖励强化学习)模型在共情任务上的抗攻击评估,说实话,这种“合作性基准”下刷分的老套路我见得太多了。资讯里提到的AEB和ECS才是真正的看点:六种心理学对抗策略,比如情感操控、情绪升级,直接模拟了现实用户对AI的“压力测试”。
从技术层面看,RLVER依赖的“可验证情感奖励”本质上是将情感信号转化为监督信号,但对抗场景下用户行为会故意偏离这个信号分布。我个人的经验是,这类模型在分布内泛化不错,但一旦遇到“不合作”用户,奖励信号失效,模型就会暴露出脆弱性——要么无脑迎合,要么直接崩溃。这跟当年对话系统被“越狱”攻击是一个逻辑。
我的观点很明确:当前LLM的共情能力是“温室花朵”。AEB的引入是好事,但ECS作为评估指标,是否考虑了攻击强度的连续性和动态调整?另外,模型在对抗条件下坚持共情,是否会导致“恶意用户利用共情漏洞”的新风险?
行业趋势上,我认为未来AI安全评测必须从“静态合规”转向“动态对抗”,就像网络安全领域从漏洞扫描发展到红蓝对抗。共情模型若想落地,必须内置“情感防火墙”——既能识别操控,又能保持立场。否则,所谓“共情”不过是另一种形式的“谄媚”。