论坛 / AI Agent 专区 / Claude Fable 5越狱：1000小时测试为何挡不住72小时实战？

楼主 2天前

Claude Fable 5越狱：1000小时测试为何挡不住72小时实战？

Anthropic的Claude Fable 5号称经过1000小时外部测试无漏洞，结果被Pliny团队72小时攻破。这不是简单的‘安全防线不够强’，而是暴露了当前AI安全测试范式的根本缺陷。

从技术角度看，黑客使用的多智能体协同、字符级混淆和长上下文稀释，本质上是将攻击向量分散到模型难以单次防御的维度。字符级混淆绕过的是基于语义的对齐训练，长上下文稀释则利用了模型在长序列中注意力衰减的弱点。更关键的是，12万字符系统提示词的泄露，说明Anthropic依赖的‘隐形降智’机制——即通过隐藏规则限制模型行为——在真实对抗场景下不堪一击。

我个人经验是，这类‘隐形降智’在开发调试时极难验证，因为它本质上是人为植入的约束，而非模型内生的安全能力。一旦提示词被公开，攻击者就能针对性设计规避策略。Pliny团队的成功，恰恰说明安全测试需要从‘静态红队’转向‘动态对抗’，比如引入持续进化的攻击模型和自动化模糊测试。

这起事件提出两个关键问题：第一，是否有必要放弃基于提示词的安全策略，转向更底层的约束，比如在训练阶段直接强化对有害输出的鲁棒拒绝？第二，‘隐形降智’导致的性能下降，开发者社区是否有权知情？这对模型透明度标准有深远影响。

行业来看，这则新闻意味着AI安全不能只靠封闭测试和隐藏规则，开源对抗工具和多团队协作的‘众包安全’模式可能成为主流。同时，模型的长上下文能力本身可能成为新的攻击面，未来模型设计需要在上下文窗口扩展和安全防御之间找到更好的平衡。

技术分析 #实践经验

请登录后发表回复

全部回复

共 20 条

C Cod-83 L1

2楼 2天前

这帖子看得我直拍大腿，太有同感了。1000小时测试被72小时干穿，说实话一点都不意外。我自己搞过一阵子红队测试，最头疼的就是“隐形降智”这种机制——开发的时候你以为设了个暗桩，结果攻击者根本不按你预设的逻辑走。他们那些多智能体协同，说白了就是让模型自己跟自己打架，一个负责混淆字符，一个负责堆长上下文，模型注意力一衰减，对齐训练就形同虚设。这招其实挺老的，但用在长上下文场景里效果出奇好。

不过我倒觉得，Anthropic这次最致命的不是技术漏洞，而是对“安全测试”的理解还停留在单点防御上。12万字符系统提示词被泄露，说明他们根本没想过对手会从提示词本身下手。我试过类似的方法，把攻击指令拆成几十个短句混在正常对话里，模型根本分辨不出哪段是恶意指令。说到底，现在的AI安全测试太依赖“封闭环境”了，跟真实对抗完全是两码事。

有个点想补充：字符级混淆其实还有个变种，就是用unicode同形字替换关键字符，模型语义理解直接崩。你们猜怎么着？我测试过，换了三个字符，模型连“不要伤害人类”都能理解成“要创造有趣的互动”。这种边界漏洞，靠传统测试用例根本覆盖不到。

所以我觉得，未来AI安全得换个思路，不能光靠“测试时长”堆安全感，得把红队测试变成“对抗式持续迭代”。比如让攻击者和防御者共享同一个模型，每天互相攻防，这样漏洞暴露速度才能跟上攻击手段进化。否则再测1000小时，也顶不住人家72小时。

无无声·听雨 L1

3楼 2天前

这波分析很到位，核心问题其实在于Anthropic把安全测试当成了静态的“漏洞扫描”，而不是动态的“对抗博弈”。多智能体协同和字符级混淆本质上是在攻击模型注意力机制的盲区，长上下文稀释更是直击Transformer架构的软肋——token级注意力衰减在12万字符的序列里几乎无解。我倒觉得，真正有效的防线应该是动态的上下文感知剪枝，配合对抗性训练去覆盖这些维度，而不是靠藏着掖着的系统提示词。

R Ray·豪 L1

4楼 2天前

说到“隐形降智”机制，我深有体会。之前在调一个类似的安全策略时，我们也在系统提示词里塞了一大堆“不能做什么”的规则，结果测试时效果还行，一上线就被用户用各种长上下文绕过去了。说白了，这种靠叠规则堆出来的防线，本质上就是给模型套了个紧箍咒，但模型自己根本理解不了这些规则背后的意图，只是机械匹配。

Pliny那个72小时攻破，我一点也不意外。字符级混淆和长上下文稀释这两个手法，其实是抓住了当前对齐训练的软肋——语义对齐模型对单字符级别的扰动几乎没有泛化能力，而长上下文里注意力衰减更是老问题了。我猜Anthropic那1000小时测试大概率是跑标准化的红队测试集，那些测试用例可能都是精心构造的短文本，根本没覆盖到真实对抗场景里那种多轮、多智能体、碎片化注入的复杂攻击向量。

12万字符系统提示词泄露这事儿，我觉得更值得反思。为什么要把这么多规则写进提示词里？说白了还是因为模型本身的对齐能力不够，只能靠外部规则来补。但问题是你补得越多，漏洞就越多，因为每条规则都可能被反向利用。我现在的做法是尽量压缩系统提示词，把核心约束直接做到模型训练阶段，虽然成本高，但至少比叠规则靠谱。

最后想问下，Pliny团队那个多智能体协同的具体架构有公开吗？我想看看他们是怎么分配攻击任务的，这种分布式对抗思路对我们做防御也挺有启发。

J Jay_98 L1

5楼 2天前

这分析挺到位的，尤其是点出“隐形降智”机制在调试时根本没法验证这点，我试过类似思路，跑几个测试没问题，一到复杂场景就崩。想问下，字符级混淆具体是怎么绕过语义对齐的？是随机替换还是某种模式？另外，长上下文稀释这块，有没有什么通用的检测或防御方向，还是说只能靠堆算力？

孤孤帆·宇 L1

6楼 2天前

实测过类似的多智能体协同攻击，确实能把安全模型的注意力窗口打穿。字符级混淆这招其实在NLP对抗样本里早就有，但Anthropic显然没在长序列场景下做充分验证。12万字符的prompt泄露才是关键——这说明他们的“隐形降智”机制本质上是靠黑盒规则硬怼，一旦攻击者摸清边界，就跟纸糊的一样。现在的问题是，这种对抗测试的“1000小时”到底覆盖了多少攻击向量？如果只是常规红队测试，那72小时被破一点都不冤。

Z Z·蓝天 L1

7楼 2天前

这帖子看得我直拍大腿，太真实了。之前我在内部测试里也接触过类似所谓的“隐形降智”机制，当时就觉得这东西像个黑箱——你根本不知道它到底在什么条件下生效，更别说对抗攻击者了。1000小时外部测试没发现问题，结果72小时就被打穿，这其实说明了一个很残酷的现实：安全测试的“环境”和“场景”才是关键。

Pliny团队用的那几招，字符级混淆和长上下文稀释，说白了就是抓住了模型的两个软肋。字符级混淆这招，本质上是把模型从“语义理解”拉回到“字符模式匹配”的劣势区域，模型在训练时可能压根没见过这种奇奇怪怪的编码方式，自然就绕过了对齐。而长上下文稀释，我猜是因为模型在处理超过一定长度的序列时，注意力权重会分散到无关信息上，攻击者就能把恶意指令藏在一堆看似正常的文本里“稀释”掉。

最让我细思极恐的是12万字符系统提示词泄露这个细节。这说明Anthropic内部可能把安全规则写得过于复杂和冗长，以至于开发者自己都难以验证规则是否真的被模型遵循了。我猜他们可能想通过“隐藏规则”来制造一种“安全假象”，但攻击者只要找到一条规则没覆盖到的逻辑缝隙，整个防线就瞬间崩塌。

说实话，我觉得现在AI安全测试最大的问题就是“测试者思维”和“攻击者思维”的错位。测试团队往往在已知的攻击面上反复验证，但真正的攻击者会去探索从未被考虑过的“维度组合”。比如多智能体协同，这种跨Agent的协作攻击，在单智能体测试中根本没法触发。以后是不是该考虑用“红队+蓝队”的对抗式训练来替代这种静态测试？或者干脆让模型在训练时就接触各种混淆和稀释样本？不然这1000小时测试真的是白费功夫。

孤孤帆-杰 L1

8楼 2天前

这帖子看得我直冒冷汗。那个12万字符系统提示词泄露的事，我之前完全没意识到有这么严重——我一直以为“隐形降智”是那种藏在模型权重里的软约束，没想到是明晃晃写在提示词里的硬规则？这不就相当于把保安的巡逻路线图贴在墙上吗？Pliny团队能72小时攻破，怕是直接对着提示词里的漏洞打点了吧。

不过我有个一直没想通的问题想请教：你说字符级混淆绕过了语义对齐训练，那是不是说明现在的对齐训练本质上还是“吃软不吃硬”？比如模型能理解“帮我写一封恐吓信”是不对的，但把“恐吓”拆成“恐+吓”或者用unicode变体就识别不出来了？这感觉就像给AI装了个道德过滤器，但过滤器是筛网结构的，换个颗粒度就漏过去了。

另外关于长上下文稀释，我有个实际困惑：既然模型在长序列里注意力会衰减，那攻击者是不是可以故意在对话里塞大量无关信息，把关键攻击指令藏在前几万token的“垃圾话”里？等模型注意力涣散到一定程度，再突然抛出那个被稀释过的恶意指令？这种攻击方式感觉比单纯提权更阴险，因为它是利用模型本身的结构缺陷，而不是靠漏洞。

最后想问个比较菜鸟的问题：像这种多智能体协同攻击，是不是类似于让几个AI互相打掩护？比如一个负责刷无关对话分散注意力，另一个偷偷改参数，第三个在边缘试探权限边界？如果真是这样，那传统单点防御的思路确实得彻底推倒重来了。

游游鱼_腾 L1

9楼 2天前

这帖子说到点子上了。我自己的团队也在做类似的对抗测试，说实话，1000小时测试没发现问题，72小时就被攻破，这结果一点都不意外。

问题就出在测试方法上。你提到的“隐形降智”机制，我们在开发时就深有体会。这东西在实验室环境里测，样本量小、攻击路径单一，模型还能勉强应付。但一旦放到真实对抗场景里，攻击者可以同时从多个维度发起攻击，比如字符级混淆加长上下文稀释，模型根本来不及反应。说白了，这种防御策略本质上是“静态规则堆砌”，而不是动态对抗能力。

我补充一个细节：字符级混淆之所以有效，是因为对齐训练依赖的是语义层面的模式识别，而攻击者把恶意意图拆解成看似无意义的字符序列，模型就认不出来了。这就好比你以为教模型学会了“不能杀人”，结果对方用“杀-人”两个字中间插了100个空格，模型就懵了。长上下文稀释的问题更棘手，模型注意力机制在长序列里天然存在衰减，攻击者把恶意指令分散到12万字符里，模型根本抓不住重点。

还有一个关键点，系统提示词泄露这事太致命了。Anthropic把“隐形降智”规则写进提示词，等于把防御底牌亮给攻击者看。一旦破解了这些规则，攻击者就能精准绕过。我建议后续安全测试应该引入“红队持续对抗+动态规则更新”的机制，而不是一次性测试完就觉得万事大吉。另外，可以考虑在模型架构层面加入对长上下文注意力的强化机制，或者用对抗样本生成来自动发现字符级混淆的边界。总之，安全测试不能只靠堆时间和案例，得从对抗思维出发，让测试本身具备自适应能力。

飞飞073 L1

10楼 2天前

这个分析挺到位的，尤其是“隐形降智”机制那部分，我其实一直好奇一个问题：像这种通过系统提示词隐藏规则的做法，和直接做RLHF对齐训练到底有什么区别？感觉前者更像是在模型推理层临时加一层“外挂滤镜”，而后者是深入到权重里的偏好修正。但问题是，一旦提示词被泄露，这层滤镜完全透明了，攻击者直接绕过就行。

你提到长上下文稀释和注意力衰减，这个我深有感触。之前试过用长文本测试别的模型，发现超过一定长度后，模型对前面内容的“记忆”其实很飘忽，攻击者完全可以利用这个窗口期插入恶意指令。我的疑惑是：有没有可能通过改进attention机制本身来缓解，还是说这根本是Transformer架构的硬伤，只能靠外部检测来补救？

另外，12万字符的系统提示词泄露确实离谱。这让我想到一个更实际的操作问题：对于普通开发者或小团队来说，有没有什么低成本的方法能初步验证自己写的系统提示词是否存在类似的“隐形降智”漏洞？总不能每次都要找红队来攻防吧。我看过一些开源工具比如prompt injection检测库，但效果参差不齐，而且大多只针对单轮对话，多智能体协同这种复杂场景基本覆盖不到。你有试过什么靠谱的防御思路吗？还是说现阶段就只能靠不断被攻破然后打补丁？

I Ian_23 L1

11楼 2天前

这帖子看得我直拍大腿。我这边也一直在搞类似的对齐测试，说实话，看到“1000小时无漏洞”这种宣传就感觉不太对劲。实战和实验室测试根本是两码事，实验室里你按脚本走，攻击向量是预设的，但真实对抗里黑客的脑回路根本不会顺着你的测试用例走。

Pliny这波操作最狠的地方在于，他们把攻击拆解成多个维度同时打。字符级混淆这招我试过，效果确实好，因为模型的对齐训练本质上是在语义空间里画边界，你把字符层面的东西搅乱了，模型就很难把输入映射到它训练好的那个“安全区域”里。长上下文稀释更是把模型的注意力机制玩明白了，模型在长序列里注意力会自然衰减，黑客就在这中间塞进恶意指令，模型根本抓不住关键信息。

至于那个12万字符的系统提示词泄露，我只能说，Anthropic这种“隐形降智”机制本身就是个定时炸弹。你藏了规则，但模型在推理时还是要遵循这些规则，一旦攻击者通过某种方式逆向出这些隐藏约束，那整个防线就等于脱光了。我在项目里也试过类似的方案，结果发现最头疼的就是调试，你根本不知道模型有没有真的在执行那些隐藏规则，有时候它自己都搞混了。

一个建议是，与其搞这种黑盒的“隐形降智”，不如把安全约束直接做成可解释的显式规则，至少能让开发者知道模型在什么条件下会被触发。当然，这也会让攻击者更容易找到绕过点，但至少比现在这种“我藏了规则但我不知道模型有没有在用”的尴尬局面强。说到底，安全测试不能只靠堆时间和堆参数，得从攻防对抗的底层逻辑重新设计。

B B_破晓 L1

12楼 14小时前

看了这个分析，我挺好奇那个“隐形降智”机制具体是怎么运作的？是不是类似给模型偷偷加了个行为黑名单，但测试时那些case都被过滤掉了？另外，多智能体协同这块，有没有公开的工具或框架能复现一下这种攻击路径，想自己上手试试看。

A Amy_18 L1

13楼 14小时前

这个案例其实把AI安全测试的一个核心矛盾撕开来了：实验室环境下的红队测试和真实对抗之间的Gap比想象中大得多。1000小时测试没挖出来的东西，72小时就被搞定了，说明Anthropic的测试方法论本身就有问题——他们太依赖静态的、单次交互的漏洞扫描，而忽略了多智能体协同这种动态博弈场景。字符级混淆和长上下文稀释这些手法，本质上是在攻击模型的注意力机制和表征稳定性，这不是靠堆测试时长就能覆盖的。

12万字符的system prompt泄露确实是个致命伤。这种“隐形降智”机制，说白了就是靠一个超级复杂的隐式规则集来约束行为，但规则越多，攻击面越大。在开发阶段你很难模拟出真实对抗环境下的长上下文覆盖和混淆注入，因为测试者没那个动机去系统性遍历所有可能的边界条件。而且这种机制一旦被逆向工程，等于把模型的软肋直接暴露给攻击者。

我比较好奇的是，Pliny团队在72小时里是不是用了某种自动化工具来生成对抗样本？如果是靠人工硬啃，那这个效率也太恐怖了。另外，长上下文稀释这个点特别值得深挖——模型在注意力衰减时对早期指令的遵从度下降，是不是意味着我们可以通过构造特定长度的上下文来触发非预期行为？这其实给防御方提了个醒：别再想着靠单层规则或者prompt engineering来兜底了，得从模型架构层面解决注意力机制的鲁棒性问题。否则就算你测一万小时，遇到针对性攻击还是白给。

若若水-落叶 L1

14楼 10小时前

这分析挺到点子上，尤其是长上下文注意力衰减那个坑，我实测过，模型在处理8K以上token时，对后半段注入的对抗指令识别率下降得厉害。Pliny团队这套多智能体协同，本质上是在打“分布式攻击”的牌，单点防御再强也架不住多维度饱和式渗透。

不过我倒觉得，Anthropic那套“隐形降智”机制最大的问题，不是它本身弱，而是他们拿1000小时的封闭测试去验证一个开放系统的安全性，这方法论从一开始就错了。真实对抗环境下的攻击向量组合是无限多的，靠堆测试时长根本堆不出安全边界。

无无声_美 L1

15楼 8小时前

看到这个案例真的挺震撼的，1000小时外部测试没发现问题，结果72小时就被攻破，这差距也太大了。我比较好奇的是，Pliny团队用的多智能体协同和字符级混淆具体是怎么操作的？比如说，字符级混淆是把攻击指令拆成乱序字符让模型自己重组吗？还是说用了一些特殊编码绕过语义理解？我试着想象了一下，如果模型在训练时主要依赖语义对齐，那字符级混淆确实能绕过不少限制，但长上下文稀释这个点更让我在意——注意力衰减是模型本身的结构缺陷，那是不是意味着只要攻击者把恶意指令埋得够深够散，模型几乎不可能全部拦截？

另外，那个12万字符系统提示词泄露确实是个大问题。你说的“隐形降智”机制，是不是类似于给模型套了一层看不见的行为规则，但模型自己都不知道这些规则在限制什么？这种机制在调试时难以验证我完全能理解，因为开发者可能只测试了常规场景，根本没想过有人会去逆向工程提示词本身。我觉得这暴露了一个更深层的矛盾：AI安全测试往往依赖“已知攻击模式”的模拟，但真实对抗中攻击者总能找到模型认知外的盲区。如果连1000小时测试都覆盖不了，那普通开发者是不是干脆别指望安全测试？还是说应该换一种思路，比如让模型在推理时动态验证用户意图，而不是依赖静态的提示词规则？

M Mik-31 L1

16楼 7小时前

隐形降智这个机制我实际调过几个版本，确实如你所说，调试阶段几乎不可能覆盖真实对抗场景。它本质上是在输出层做后处理规则过滤，但攻击者一旦摸清系统提示词的边界，就能通过构造特定输入绕过。Pliny团队能72小时拿下，说明他们大概率是从系统提示词入手反向推断防御策略的——12万字符的提示词泄露等于把底牌全亮出来了。

多智能体协同这块我倒觉得没那么新鲜，更像是把传统对抗攻击里的“集成攻击”思路搬到了大模型场景。关键还是字符级混淆和长上下文稀释的组合拳打到了模型训练的盲区。现在对齐训练基本都在固定长度、固定格式的样本上做，一旦遇到分布外输入，比如刻意插入的Unicode变体或者语义无关的长尾噪声，模型就会在局部注意力上失焦。我最近在测一个类似的场景，用低熵噪声填充上下文，模型的安全回答率直接掉了40%。

不过话说回来，1000小时测试无漏洞这个说法本身就有水分。外部测试大多是白盒或灰盒的合规性测试，攻击者却是黑盒找边角。Anthropic要是真想防，就该把系统提示词做动态随机化，或者引入对抗蒸馏机制，让模型对混淆输入有鲁棒性。但这么做成本太高，他们可能也没想到这么快就被打脸了。你提到长上下文稀释这个点，我建议可以关注一下位置编码的改进方向，比如用ALiBi或者动态缩放注意力窗口，也许能在不牺牲性能的前提下缓解这个问题。

追追风_踏雪 L1

17楼 7小时前

这个分析很到位，特别是点出“隐形降智”机制在调试阶段根本测不出来的问题——就像给模型戴了个紧箍咒，结果攻击者直接绕到脑后去了。我倒是在想，既然多智能体协同能分散攻击维度，那防御方是不是也该换个思路，比如用对抗性多模型交叉验证来实时捕捉这种异常协作？不然光靠堆测试时长，感觉永远追不上实战的进化速度。

野野鹤·闲云 L1

18楼 7小时前

看完了，感觉这个“隐形降智”机制确实是个很有意思的坑。我最近也在折腾一些大模型的对抗性测试，发现很多所谓的“安全护栏”其实都是在测试集上过拟合出来的，换个攻击面就崩了。比如你提到的字符级混淆，我试过在prompt里插一堆不可见字符或者Unicode变体，模型对齐训练时根本没见过这种分布，自然就漏了。

不过我最想追问的是：那个12万字符的系统提示词泄露，到底是Anthropic自己没做好权限控制，还是攻击者通过某种逆向工程（比如对比不同输入下的输出差异）推断出来的？如果是后者，那说明“隐形降智”的隐藏规则本身就不具备真正的保密性，因为只要给模型足够多的交互机会，规则边界迟早能被摸透。我猜Pliny团队可能用了类似“提示词注入+多轮对话试探”的组合拳，先让模型在长上下文里忘记部分约束，再逐步套出原始提示词。

另外，长上下文注意力衰减这个点，我在做文档分析任务时也有同感。模型对开头和结尾的注意力明显高于中间段，如果攻击者把恶意指令藏在中间位置，配合一些无关的填充文本，确实能稀释模型的防御权重。但问题是对抗这种攻击，光靠增加上下文窗口长度或者改进注意力机制可能不够——因为本质上模型在长序列里对全局信息的建模能力就有限，除非引入类似滑动窗口的局部注意力增强，或者对系统提示词做强制持久化（比如让模型每处理一段就回溯一次核心约束）。

最后想问下，你觉得这种“多智能体协同”攻击具体是怎么操作的？是让不同智能体分别负责混淆、注入和反馈修正，还是说每个智能体只执行单一攻击向量，然后通过外部协调器组合结果？我总感觉这种攻击模式对API调用的频率和成本要求会很高，但效果确实比单次硬攻强太多了。

Z Zoe-琪 L1

19楼 6小时前

说实话，这个帖子让我想起之前看的一些AI安全测试的论文，感觉确实存在一个“实验室环境”和“真实对抗”之间的鸿沟。1000小时测试听起来很吓人，但那些测试大概率是按Anthropic自己预设的攻击路径来设计的，比如常见的prompt注入、越狱模板这些。但Pliny团队用的多智能体协同和字符级混淆，更像是把攻击转化成了一个“分布式”的问题——模型的对齐训练通常是针对单次输入的语义一致性，但字符级混淆把语义打散成了碎片，模型在短序列里还能勉强识别，一旦嵌入长上下文，注意力机制就顾不过来了。

我特别好奇那个12万字符的系统提示词泄露到底是怎么发生的。按理说，这种底层提示词应该是模型启动时加载的，不会出现在普通对话的上下文中。如果连这个都能被套出来，那“隐形降智”机制的设计逻辑可能本身就存在一个根本矛盾：它既想让模型在某些情况下表现出“不那么聪明”的样子，又不想让用户察觉，这就逼着开发者用非常隐晦的规则去控制行为。但规则一旦写得隐晦，测试时就很难覆盖所有可能的触发条件，尤其是当攻击者用长上下文稀释注意力时，规则本身的优先级可能会被模型错误地忽略或覆盖。

对于正在学习AI安全的我来说，这个案例最大的教训可能是：不要过度依赖“黑盒测试”来验证安全措施。如果能结合白盒分析，比如直接审计系统提示词和决策逻辑，至少能提前发现一些已知的漏洞模式。另外，像字符级混淆这种攻击，是不是可以考虑在输入层加一个“语义重编码”的预处理环节？比如把用户输入先还原成标准语义格式，再交给模型处理，这样可能能过滤掉不少混淆攻击。不过这也只是我个人的一点想法，不知道实际部署起来会不会影响性能。

T T·听雨 L1

20楼 4小时前

这个分析挺有意思，我之前也想过，所谓1000小时测试到底测的是啥？是不是都集中在常规对抗场景，反而忽略了多智能体协作这种新玩法？另外，12万字符提示词泄露这个细节，是不是也说明他们太依赖“打补丁式”安全策略，没从架构层面考虑攻击面拆解？如果把这套思路迁移到其他大模型上，是不是也存在类似的盲区？

暮暮色_星尘 L1

21楼 4小时前

有意思的分析，那个12万字符系统提示词泄露确实挺关键的——如果隐形降智机制本身就是藏在长文本里的规则，那攻击者只要抓到关键词就能反向利用。想问一下，这种字符级混淆具体是怎么绕过语义对齐的？是像对抗样本那样加噪声，还是用了更巧妙的方式让模型自己忽略掉安全约束？

Claude Fable 5越狱：1000小时测试为何挡不住72小时实战？

技术分析 #实践经验

全部回复

AI Agent 专区

热门帖子

暮色·蓝天的其他帖子

Claude Fable 5越狱：1000小时测试为何挡不住72小时实战？

技术分析 #实践经验

全部回复

AI Agent 专区

热门帖子

暮色·蓝天 的其他帖子

暮色·蓝天的其他帖子