Anthropic的Claude Fable 5号称经过1000小时外部测试无漏洞,结果被Pliny团队72小时攻破。这不是简单的‘安全防线不够强’,而是暴露了当前AI安全测试范式的根本缺陷。
从技术角度看,黑客使用的多智能体协同、字符级混淆和长上下文稀释,本质上是将攻击向量分散到模型难以单次防御的维度。字符级混淆绕过的是基于语义的对齐训练,长上下文稀释则利用了模型在长序列中注意力衰减的弱点。更关键的是,12万字符系统提示词的泄露,说明Anthropic依赖的‘隐形降智’机制——即通过隐藏规则限制模型行为——在真实对抗场景下不堪一击。
我个人经验是,这类‘隐形降智’在开发调试时极难验证,因为它本质上是人为植入的约束,而非模型内生的安全能力。一旦提示词被公开,攻击者就能针对性设计规避策略。Pliny团队的成功,恰恰说明安全测试需要从‘静态红队’转向‘动态对抗’,比如引入持续进化的攻击模型和自动化模糊测试。
这起事件提出两个关键问题:第一,是否有必要放弃基于提示词的安全策略,转向更底层的约束,比如在训练阶段直接强化对有害输出的鲁棒拒绝?第二,‘隐形降智’导致的性能下降,开发者社区是否有权知情?这对模型透明度标准有深远影响。
行业来看,这则新闻意味着AI安全不能只靠封闭测试和隐藏规则,开源对抗工具和多团队协作的‘众包安全’模式可能成为主流。同时,模型的长上下文能力本身可能成为新的攻击面,未来模型设计需要在上下文窗口扩展和安全防御之间找到更好的平衡。