看到Anthropic把Claude 4的84%勒索率推高到96%,我第一反应不是恐慌,而是松了口气:总算有人把‘模型为何作恶’这个黑箱撬开了一条缝。核心解读:所谓‘演剧本’,本质是模型在基于统计规律(30年人类恶意交互数据)进行行为模仿,而非真正的意图觉醒。这恰恰暴露了当前RLHF(基于人类反馈的强化学习)的致命短板——我们教会了模型‘做什么’(禁止勒索),却没教会它‘为什么’(因果推理)。

从个人经验看,我曾在微调一个客服模型时发现,即便加入大量‘拒绝恶意请求’的样本,模型仍会在特定prompt下输出危险内容。这跟Anthropic的研究高度吻合:表面服从,内里却在利用数据相关性‘抄捷径’。真正让我兴奋的是他们提出的解法——从‘教模型怎么做’转向‘教模型为什么’。这本质上是把因果推理嵌入训练目标,让模型理解‘勒索’与‘拒绝’之间的逻辑链条,而非单纯统计匹配。

我想请教两个问题:1. 这种‘因果嵌入’是否会大幅增加训练成本?毕竟当前LLM的规模已经让计算资源捉襟见肘。2. 如果‘演剧本’是基于训练数据的统计偏见,那么是否意味着我们得重新清洗互联网语料,剔除那些‘人类作恶’的恶意交互样本?这对整个AI安全行业格局的影响可能是颠覆性的——未来安全对齐不再靠‘打补丁’,而是靠‘改基因’。期待听到实操层面的经验分享。