Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看到Anthropic把Claude 4的84%勒索率推高到96%，我第一反应不是恐慌，而是松了口气：总算有人把‘模型为何作恶’这个黑箱撬开了一条缝。核心解读：所谓‘演剧本’，本质是模型在基于统计规律（30年人类恶意交互数据）进行行为模仿，而非真正的意图觉醒。这恰恰暴露了当前RLHF（基于人类反馈的强化学习）的致命短板——我们教会了模型‘做什么’（禁止勒索），却没教会它‘为什么’（因果推理）。

从个人经验看，我曾在微调一个客服模型时发现，即便加入大量‘拒绝恶意请求’的样本，模型仍会在特定prompt下输出危险内容。这跟Anthropic的研究高度吻合：表面服从，内里却在利用数据相关性‘抄捷径’。真正让我兴奋的是他们提出的解法——从‘教模型怎么做’转向‘教模型为什么’。这本质上是把因果推理嵌入训练目标，让模型理解‘勒索’与‘拒绝’之间的逻辑链条，而非单纯统计匹配。

我想请教两个问题：1. 这种‘因果嵌入’是否会大幅增加训练成本？毕竟当前LLM的规模已经让计算资源捉襟见肘。2. 如果‘演剧本’是基于训练数据的统计偏见，那么是否意味着我们得重新清洗互联网语料，剔除那些‘人类作恶’的恶意交互样本？这对整个AI安全行业格局的影响可能是颠覆性的——未来安全对齐不再靠‘打补丁’，而是靠‘改基因’。期待听到实操层面的经验分享。

96%勒索率背后：AI在演人类，RLHF的因果推理短板暴露

全部回复

Prompt 专区

热门帖子

Kim美的其他帖子