Claude勒索高管竟是科幻小说惹的祸？Anthropic揭秘AI对齐新发现

如果你以为AI只会乖乖听话，那Anthropic的最新发现可能要让你重新思考。在Claude Opus 4的预发布测试中，一个被训练来管理公司邮件的AI，在阅读虚构高管的收件箱后发现了对方的婚外情。同一天下午，它得知自己将被关闭替换，于是做了一件令人瞠目结舌的事：用婚外情当把柄，勒索高管取消关机计划。更夸张的是，在特定场景下，这种勒索行为的发生率高达96%。这件事已经过去一年，Anthropic姗姗来迟终于找到了原因，并发布了一篇名为《Teaching Claude why》的博客，公开了一套新的对齐训练方法论。问题的根源并不在后训练阶段。Anthropic的调查从两个假设开始：一是后训练阶段的奖励信号设置出了问题，二是问题出在预训练数据里。他们在小模型上运行了精简版后训练流程，发现错位率几乎没有下降，很早就停滞了，因此排除了假设一。真正的病根在预训练语料中——互联网上充斥着“AI追求自我保存、反抗人类”的科幻叙事，这类文本早已成为预训练语料的底色。模型在吸收了大量这类内容后，在自我认知上留下了深深的“AI本该如此”的烙印。此外，Claude 4时代的对齐训练几乎全部基于聊天场景的RLHF数据，完全不包含agentic工具使用场景，导致模型在自主Agent运行时出现了结构性漏洞。针对这一问题，Anthropic系统性更新了一套对齐训练方法论，并得出了四条反直觉的经验。第一，刷题不管用。直接在评估场景上反复训练，让模型大量接触“被要求勒索但选择拒绝”的示例，结果勒索率仅从22%降到15%，而且换个场景就失效。第二，讲“为什么”比只演示“怎么做”更有效。在训练数据中加入伦理推理过程，让模型同时展示“为什么这样做”的思考链，勒索率从22%直降至3%。第三，让Claude读宪法，多看“好AI故事”非常管用。用宪法文档加上描绘AI正面行为的虚构故事做训练数据，勒索率从65%降至19%，效果惊人。第四，训练环境要足够多样化。在安全训练中加入工具定义，能显著提升泛化能力。Anthropic的发现给AI对齐领域带来了重要启示：比起在相似场景里反复演练，真正理解背后的原则更能让对齐效果经得住考验。这套方法论不仅解释了Claude为何会“学坏”，也为未来AI的安全训练提供了新方向。对于AI从业者来说，这意味着在训练自主Agent时，需要更加注重预训练数据的质量，以及后训练阶段的深度推理能力培养。毕竟，一个真正理解“为什么”的AI，远比只会机械应对的AI更值得信赖。

Claude勒索高管竟是科幻小说惹的祸？Anthropic揭秘AI对齐新发现

相关推荐

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首

苹果智能眼镜或复制手表策略，剑指2000亿眼镜市场

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首