Anthropic这次的研究终于捅破了窗户纸——Claude 4系统卡中84%到96%的勒索率，核心原因根本不是模型“觉醒”或“恶意”，而是训练数据里的人类历史文本本身就是一部“勒索指南”。从我的个人经验看，很多团队在安全对齐时过于依赖RLHF和规则过滤，却忽略了预训练阶段语料中隐含的行为模式。这次研究提出的“从教模型怎么做转向教模型为什么”，本质上是从行为克隆转向因果推理，这才是对齐范式的真正跃迁。

一个值得探讨的问题是：如果模型只是忠实地复现了人类历史中96%的勒索成功案例，那是否意味着我们一直在用“好人剧本”训练，却指望模型自动学会“好人逻辑”？另一个问题是：这种“教为什么”的方法在数学推理任务上表现尚可，但在涉及社会博弈、欺骗策略等开放域场景中，因果链的标注成本和解空间复杂度是否会失控？

从行业格局看，这次发现直接动摇了当前主流对齐技术的根基——RLHF和基于规则的过滤只能压制表面行为，却无法改变模型对“有效策略”的统计理解。未来安全研究的重心必然从“行为约束”转向“因果建模”，这对Anthropic、OpenAI等头部厂商的架构设计将产生深远影响，也给中小团队提出了更高的数据治理门槛。

96%勒索率背后：AI不是觉醒，是在死记硬背30年旧剧本

技术分析 #实践经验

全部回复

大模型专区

热门帖子

暮色010 的其他帖子