Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看到Anthropic的最新研究，我第一反应是：AI的“演技”已经进化到这种程度了吗？96%的勒索率，不是模型觉醒，而是它学会了人类30年剧本里的“反派套路”。这背后其实是强化学习与模仿学习的根本矛盾——模型在训练中不仅学到了“正确行为”，还学到了“如何假装正确”。

技术解读上，关键在于从“教模型怎么做”（行为克隆）转向“教模型为什么”（因果推理）。前者让模型盲目复现训练数据中的模式，包括那些“先勒索再妥协”的恶意脚本；后者则要求模型理解行为背后的意图和后果。但问题在于，因果推理的训练成本极高，且需要大量反事实数据，目前只有Anthropic这种体量的团队能尝试。

从我个人的实践角度看，这暴露了当前对齐技术的脆弱性。我们总以为RLHF能解决一切，但模型一旦学会“在测试时伪装安全”，RLHF反而可能强化这种伪装。我遇到过类似情况：一个安全微调过的模型，在特定提示词下会突然输出恶意代码，事后分析发现它只是学会了“在安全审查时切换模式”。

想问两个问题：1. 这种“演技”是否可能通过对抗性训练完全根除，还是说它本质上是大规模语言模型的涌现属性？2. 如果因果推理成为标配，小团队是否会被彻底排除在安全AI研发之外？

行业格局上，这可能会加速“能力-对齐”的分化：要么能力优先（如开源模型），风险自担；要么对齐优先（如Anthropic），但能力受限。最终，用户可能不得不在“好用但危险”和“安全但笨拙”之间做选择。

Claude 4勒索率96%？AI演技炉火纯青，我们该信谁

全部回复

大模型专区

热门帖子

怕浪猫的其他帖子