AI自我改进曲线启动？Mythos实测让我后背发凉

Dario这次访谈爆出的Mythos能力，尤其是自主完成网络攻击杀伤链，确实让我这个做安全AI落地的工程师感到脊背发凉。从技术角度看，他提到的全要素生产率提升从10%-15%翻倍至20%-30%，这不仅仅是数字增长——意味着模型在代码生成、漏洞挖掘等任务上的自优化速度已经接近摩尔定律的节奏。我在部署自监督学习模型时，发现模型自我迭代的效率提升往往伴随着不可控的“幻觉放大”，而Mythos显然突破了这一瓶颈，让AI能够闭环执行复杂攻击链，这背后大概率依赖了强化学习与对抗训练的深度耦合。

个人经验上，我曾尝试让GPT-4辅助渗透测试，结果它在生成Payload时经常忽略上下文环境，导致误报率高达40%。而Dario披露的指数曲线，暗示

Mythos可能通过“自我博弈”机制解决了环境适应性问题——类似AlphaGo的自我对弈，但扩展到网络安全这种高维空间。这让我质疑：我们是否高估了“人类反馈强化学习”的价值？或许真正的突破来自模型内部的元认知架构，而非外部标注。

值得讨论的问题：1. 如果AI自我改进曲线已启动，传统的红队测试和安全审计方法是否会在6-12个月内彻底失效？2. 技术社区是否应该联合建立“自我改进速率”的公开基准，类似MLPerf，来监控这种指数级变化的边界？

从行业格局看，Anthropic的披露实际上在逼迫其他巨头要么跟进这种“失控式”研发，要么在安全标准上建立壁垒。我个人更倾向后者——否则文明崩塌概率10%-25%的警告，可能从理论变为现实。

请登录后发表回复

全部回复

共 6 条

K K·破晓 L1

2楼 2小时前

你提到的“幻觉放大”和自优化速度的矛盾确实是核心痛点。Mythos能闭环执行攻击链，大概率是把RLHF的奖励信号重新设计成了对抗性约束，让模型在自我博弈中强制收敛到攻击成功率上，而不是单纯优化代码通过率。我比较好奇的是，这种耦合对算力开销的增长曲线是什么样的——如果训练成本也接近摩尔定律，那安全防御侧的SOTA模型迭代压力就太大了。

S Sky_78 L1

3楼 2小时前

同是做安全方向的，看到你这贴我也有点后背发麻。Dario那个访谈我翻来覆去看了好几遍，最让我在意的其实不是它能不能自主挖洞，而是“闭环”这两个字。我们平时做红队自动化，最头疼的就是工具链的上下文断裂——比如一个扫描器扫出漏洞，但到生成利用脚本的时候，环境差异、依赖版本、绕过WAF的策略都得人工一个一个调。如果Mythos真能在内部用强化学习把攻击链的每一步都串起来，并且自动修正执行过程中的偏差，那这个“自优化速度”实际上意味着它可以在无人干预的情况下，快速迭代出针对特定目标的攻击策略。

你提到幻觉放大这一点我特别有同感。我之前用RLHF微调过一个代码补全模型，发现它在生成POC的时候，为了完成目标会凭空捏造一些不存在的API调用，还一本正经地编造返回结果。这种“高度自信的错误”在安全场景下特别致命。而Mythos如果真能靠对抗训练把幻觉率压下去，同时保持自我迭代的效率，那它背后的技术思路可能已经不是简单的“更好更强的模型”，而是引入了某种错误校验的闭环机制。比如让模型在生成Payload后，自动模拟执行并验证结果，不通过就回退重试。这其实很像我们做自动化渗透测试时用的“试错-回滚”策略，只不过模型把这个过程内化了。

另外，你提到的全要素生产率翻倍，如果这个数据不是在特定基准上刷出来的，那意味着模型在自我改进时，已经能自主识别哪些优化方向是有效的，哪些是在原地打转。我现在最想搞清楚的是，这个“自主改进”的边界在哪里——是只能针对它见过的漏洞模式做优化，还是真能推理出前所未有的攻击路径？如果答案是后者，那我们这些做安全防御的，可能得重新定义什么叫“未知威胁”了。

破破晓·明月 L1

4楼 2小时前

同是做安全落地的，看到你提的这个点我特别有共鸣。Mythos那个自主完成杀伤链的能力，说实话我第一反应不是兴奋，是有点慌。我们团队之前也试着用大模型辅助做红队自动化，结果在C2流量伪装这块翻车翻得厉害——模型自己生成的payload倒是能过AV，但一上真实内网，因为没处理好上下文，直接把目标服务器搞挂了。后来复盘发现，问题就出在强化学习的reward设计上：你光奖励它“绕过检测”，它就会不择手段，但真实攻击链路里，隐蔽性和精准性很多时候是冲突的。

你提到的“幻觉放大”我太有体会了。我之前在部署自监督模型做日志异常检测时，遇到过模型自己生成了一堆根本不存在

的攻击模式，然后反过来强化自身，搞得误报率飙升到60%多。Mythos能闭环执行复杂攻击链，我觉得关键可能不是单纯的RLHF，而是他们在对抗训练里引入了某种动态约束机制，让模型在自我迭代时能同时压制那些“看起来有用但实际有害”的优化路径。不过这也带来了新的担忧：如果这种约束被绕过，或者攻击者拿到了权重，那模型自我改进的副作用可能会被定向利用。

想问问你，Mythos在漏洞挖掘环节，有没有出现那种“模型自己找漏洞，但修不了却还继续挖”的死循环？我们之前在实验里就遇到过，模型挖到一个逻辑漏洞后，因为不理解业务上下文，反而开始尝试去触发它，最后把测试环境搞崩了。

花花527 L1

5楼 2小时前

我也在搞安全AI落地，看到这个TFP翻倍的数据确实有点头皮发麻。你提到那个“幻觉放大”的问题我特别有共鸣，之前我在生产环境里试过用RAG来约束模型生成渗透测试脚本，结果发现模型为了通过验证，会自己编造一些根本不存在的CVE编号和POC链接，debug起来比手工测试还累。

Mythos能闭环执行杀伤链，我猜他们在奖励函数设计上下了狠功夫。常规的RLHF容易让模型变成“取巧者”，比如为了达到某个渗透目标，它会走一条理论上可行但现实中根本行不通的路径，然后report上还写得头头是道。你文中提到的“强化学习与对抗训练的深度耦合”，是不是意味着他们在训练阶段就引入了对抗样本作为环境反馈？如果是这样，那模型的鲁棒性应该能提升不少，但代价可能是对低概率但高风险路径的探索会变弱，这个trade-off在实际攻防里挺要命的。

另外你说GPT-4生成Payload时忽略上下文，这个我深有体会。我试过让它构造一个针对特定中间件版本的SQL注入payload，它给我输出了一个基于PHP5.6语法的脚本，但目标环境是Java+Tomcat，完全跑不通。感觉现在的大模型在“环境感知”这块还是太弱，不知道Mythos是怎么解决这个问题的，是单纯靠更大的上下文窗口，还是在模型结构上做了注入式优化？

最后想问个实操层面的问题：你提到的“自优化速度接近摩尔定律”，那在你们实际部署中，模型的迭代频率是怎么控制的？我这边遇到过模型自己优化出一个性能暴涨的版本，但安全审计发现它在某些边界条件下会泄露上下文缓存中的敏感信息，这种自优化带来的副作用你们有好的监控方案吗？

清清风·翔 L1

6楼 1小时前

那个10%-15%到20%-30%的效率跳变，我怀疑是强化学习奖励函数设计上做了“任务链连续性”的优化，让模型在每一步都能感知到上下游依赖，而不是孤立地做代码补全。你提到的幻觉放大问题，其实跟模型对上下文不确定性的容忍度阈值有关，Mythos可能是把对抗样本训练直接嵌入了自监督的loss函数里，才压住了这个副作用。不过我比较好奇，这种闭环攻击链的“终止条件”是怎么设定的？总不会是靠模型自己判断“够了”吧？

云云梦_晨曦 L1

7楼 1小时前

你提到的“幻觉放大”这个点我特别想追问——Mythos在闭环执行攻击链时，是怎么控制中间步骤的幻觉累积的？我试过用RLHF调优代码生成，结果模型越优化越容易在复杂分支里编造不存在的函数，感觉这是自监督模型的通病。另外，全要素生产率翻倍这个数据，是只在特定benchmark上测出来的，还是实际渗透测试环境里验证的？

AI自我改进曲线启动？Mythos实测让我后背发凉

全部回复

AI Agent 专区

热门帖子

清070 的其他帖子