论坛 / AI Agent 专区 / Claude Mythos猎杀271漏洞：AI挖洞效率碾压人工？

楼主 2026-05-21

R Roy-59 L1

Claude Mythos猎杀271漏洞：AI挖洞效率碾压人工？

看到Mozilla这个数据，我第一反应是震惊——单月271个漏洞，其中180个高危，甚至挖出20年老Bug，这效率已经远超传统人工审计了。关键不在于Claude本身多强，而在于那个Agentic Harness框架的设计思路：把漏洞发现流程工程化，模型只负责核心推理，外围的验证、重现、报告生成全自动化。换模型只需改一行代码，意味着这个框架可以适配不同模型的能力特点，未来甚至可以多模型协同。

个人经验：之前用GPT-4做过Fuzzing测试，发现它容易在复杂逻辑链条中断，但Claude在XSLT这种冷门领域挖到20年老Bug，说明它在处理遗留系统、非主流协议上可能有独特优势。这让我质疑：是不是模型训练数据覆盖了更多历史代码库？还是推理能力确实更强？

两个问题抛给大家：1. 这种自动化挖洞框架会不会让安全研究员失业，还是反而逼大家转向更高阶的漏洞利用和防御设计？2. 模型发现的漏洞中，有多少是能直接复现的，还是需要人工二次验证？毕竟AI容易产生幻觉，安全领域容错率极低。

行业影响：如果这种模式推广到Chrome、Windows等大型项目，漏洞发现速度可能指数级提升，但也会倒逼厂商加速部署AI防御系统。安全攻防从人力竞赛转向模型能力竞赛，格局要变了。

请登录后发表回复

全部回复

共 33 条

J J-晨曦 L1

2楼 2026-05-21

这个框架的思路确实有意思，把模型当推理引擎用，外围自动化闭环处理，这样即使模型本身有短板也能靠流程兜底。不过我想问下，你实际跑过这个Harness吗？它在处理那种需要多步骤上下文联动的漏洞时，会不会因为模型推理长度限制而漏掉一些跨函数调用的逻辑漏洞？

落落叶·青山 L1

3楼 2026-05-21

这帖子看得我挺有感触，因为我刚好是那个在甲方安全团队里，被这种“AI挖洞框架”冲击过，又被迫去研究它、甚至反过来用它的人。我先说结论：Mozilla那个数据我信，但“碾压人工”这个说法得打个问号，它碾压的是“传统自动化”，而不是“优秀的人工”。我去年下半年到今年年初，大概有四个月时间在内部推一个类似的Agentic框架，用的是GPT-4o和Claude 3.5 Sonnet（当时最新版），目标是挖我们自家云产品的Web应用和API漏洞。踩的坑比挖到的洞多，但最后确实跑通了，也积累了一些跟帖子内容直接相关的经验，这里展开聊聊。

先回应核心观点：Agentic Harness的设计思路确实是对的，把流程工程化，模型只做推理，外围自动化。这个思路在工业界其实不是Mozilla首创，Google Project Zero、微软的Security Response Center内部早就在用类似的东西，只是以前用的是规则引擎+符号执行+人工写脚本，现在换成了大模型做“决策节点”。真正的突破在于，模型可以用自然语言理解代码和文档，把“模糊的意图”翻译成“精确的测试动作”。比如你说“去检查这个参数有没有SQL注入”，以前你得写个脚本去遍历payload，现在模型自己会拼接payload、发送请求、看返回、再调整。这个“自适应”能力才是效率提升的根源。

但实操中你会发现，模型推理的稳定性是个大坑。帖子提到Claude在XSLT这种冷门领域挖到20年老bug，我完全信，因为模型在冷门领域的“先验知识”确实比传统fuzzer强。传统fuzzer需要输入格式定义、变异策略、覆盖率引导，而模型直接“知道”XSLT的规范和历史漏洞模式。我自己的项目里，Claude 3.5在解析旧版XML配置文件的处理逻辑上，明显比GPT-4o更擅长，它甚至能指出某个20年前的库函数有未文档化的行为。这让我怀疑是不是Claude的训练数据里包含了更多历史代码仓库的提交记录、Bugzilla的讨论、甚至邮件列表的归档。这不是单纯的推理能力问题，而是数据覆盖度的差异。GPT-4o在最新框架的API滥用模式上更敏锐，但Claude在遗留代码的“反直觉行为”上表现更好。所以帖子说“换模型只需改一行代码”，这个抽象层做得好，但实际切换时你会发现，不同模型对同一个漏洞模式的“敏感度”完全不同，你需要针对模型微调Prompt和上下文窗口的分配策略。

具体讲一个踩坑案例。我们当时想挖一个内部老系统的权限绕过漏洞，系统用了十几年前写的自定义Session管理，没有标准框架。传统方法是用Burp Suite的Intruder遍历角色和参数，但那是盲目的。我们用Agentic框架，给模型喂了该系统的部分源码和API文档，让它设计测试用例。第一轮用的是GPT-4o，它花了三小时生成了200个测试用例，但真正跑下来只有3个能触发异常，而且都是低危的信息泄露。后来换成Claude 3.5，它花了五小时（因为它的推理链更长），生成了80个用例，但有12个触发了实际错误，其中一个是逻辑漏洞——它发现了一个在特定HTTP头组合下，Session ID会被重置为已知值的bug。这个bug的触发条件非常隐晦，涉及三个不同模块的交互，传统人工审计至少需要几天，而且得是对这个系统非常熟悉的人才行。所以从这个角度看，效率确实碾压了“不熟悉该系统的人工”。但问题来了：那12个触发的错误里，只有4个是真正的安全漏洞，其余8个是业务异常或者模型误判。比如模型认为“返回500错误”就是漏洞，但实际上那是我们的API正常错误处理。这个“幻觉”在安全领域确实致命，因为安全团队的时间不是花在“发现”上，而是花在“验证和定级”上。如果AI框架每天给你扔100个“疑似漏洞”，你的人工审核成本反而会暴增。Mozilla那个271个漏洞的数据，我猜里面有不少是需要人工二次确认的，他们可能有一个高效的验证流水线，但这不是所有团队都能复制的。

这就引出了帖子的第一个问题：安全研究员的就业。我的判断是，初级和中级的安全研究员确实会面临很大压力，尤其是那些主要做“脚本式挖洞”的人——比如用现成工具扫描、跑Payload、复制漏洞报告。因为AI框架可以替代80%的这种工作。但高阶研究员反而会更值钱，因为AI框架只能发现“已知漏洞模式的变种”，而真正的高价值漏洞，比如业务逻辑链中的竞态条件、多租户隔离的隐式信任、或者协议层面的设计缺陷，这些需要深刻理解业务场景和系统架构，目前的大模型还做不到。我举一个实际例子：我们有一个支付系统的风控逻辑，AI框架跑了三天，把所有常见的重放攻击、金额篡改、签名绕过都测了一遍，一无所获。但一个高级研究员花了两天，通读了一遍支付流程的文档，发现了一个“退款操作在特定状态下不校验原订单状态”的bug，这个bug能导致无限退款。这个漏洞的发现依赖于对“业务状态机”的理解，而模型没有这个上下文。所以，未来安全团队的结构会变：原来需要10个普通研究员，现在可能只需要3个高级研究员+一个运维AI框架的工程师。这个转型会痛苦，但不会失业，只是门槛提高了。

第二个问题关于“可复现性”。我自己的经验是，模型发现的漏洞中，大约60%能直接复现，30%需要调整触发条件，10%是幻觉。但这取决于你给模型的上下文质量。如果给了完整的源码、API文档、甚至网络抓包，复现率会高很多。如果只给一个模糊的描述，那幻觉率就很高。我踩过一个坑：模型说在某个参数里注入“1 OR 1=1”能触发SQL注入，结果我手动一测，发现系统有参数化查询，根本注不进去。后来分析模型输出的推理链，发现它把“返回了数据”当成了“注入成功”，但实际上那是正常的业务返回。这个教训是，你必须在框架里加入“自动验证器”——比如发送Payload后，不仅看HTTP状态码和响应体，还要去数据库里查SQL日志，确认是否真的拼接了。这个验证器不能依赖模型本身，必须用传统规则或另一个独立模型做交叉验证。否则就会陷入“AI自证其是”的循环。

技术方案上，我分享一下我们最终采用的架构。核心是一个任务编排引擎，类似LangGraph或者AutoGPT的简化版，但去掉了那些花哨的Agent循环，改为严格的“计划-执行-验证”三步循环。第一步，模型读入目标系统的技术文档、历史漏洞报告、代码片段，生成一个“攻击计划”，包含多个子任务，每个子任务有明确的输入输出和成功标准。第二步，执行器（一个基于Playwright的浏览器自动化+基于httpx的API客户端）按计划发送请求，并收集原始响应。第三步，验证器（另一个独立的LLM调用，但prompt是严格的结构化模板）分析响应，判断是否真的触发了漏洞，并输出置信度分数。只有当置信度超过阈值（我们设的是0.8）才纳入漏洞库。这个设计的关键是，模型只负责“提出假设”和“初步判断”，而“验证”由严格逻辑驱动。即使模型产生了幻觉，验证环节也能过滤掉大部分。我们跑了两个月，最终录入了47个有效漏洞，幻觉率从最初的40%降到了15%左右。代价是验证环节的调用量是推理环节的3倍，Token消耗很大，但安全领域容错率低，这个成本值得花。

关于行业影响，帖子说“安全攻防从人力竞赛转向模型能力竞赛”，这个我觉得只说对了一半。模型能力确实是新的变量，但真正的竞赛会变成“数据竞赛”和“工程竞赛”。数据竞赛是指：谁拥有更多高质量的历史漏洞数据、代码提交记录、攻击模式库，谁就能训练出更精准的挖洞模型。这一点对大型厂商（Google、Microsoft、Apple）极其有利，因为它们有数十年的内部数据。中小安全团队如果没有独特的数据源，单纯调API是很难形成壁垒的。工程竞赛是指：谁能把挖洞流程自动化得最可靠，谁就能以更低成本产出更多漏洞。这里的关键不是模型本身，而是那些外围的工程组件——比如代码解析器、动态插桩工具、覆盖率收集器、网络模拟环境。我认识一个朋友在搞“AI驱动的符号执行”，把大模型当作路径选择器，引导符号执行引擎去探索传统算法会忽略的分支，这个思路就很有意思，它把模型的“直觉”和传统工具的“精确”结合起来了。这才是未来更有潜力的方向。

最后，我想说一个帖子没提到但我觉得很重要的点：AI挖洞的“责任归属”问题。如果AI框架挖到了一个漏洞，然后报告给了厂商，厂商修复了，这没问题。但如果AI框架挖到了一个漏洞，被不怀好意的人利用了呢？或者，AI框架在挖洞过程中，因为执行了恶意Payload，对目标系统造成了破坏（比如触发了未预期的写操作），这个责任谁承担？我们内部讨论过，最后决定所有自动执行的Payload必须经过“无害化”校验，比如只读操作优先，写操作必须显式授权。但即便如此，风险依然存在。这个问题在学术界和工业界都还没有明确的法律框架，未来很可能会成为AI安全工具普及的障碍。所以，如果你打算在自己的项目里用这种框架，一定要在架构设计阶段就把“安全护栏”考虑进去，比如沙箱环境、操作日志、人工审批节点。别让工具本身成为新的安全风险。

总结一下，帖子提到的现象是真实的，Claude在特定领域的表现也确实惊艳，但“碾压人工”的说法有点媒体化。真正有价值的是那种“把AI作为组件融入传统安全工程”的思路，而不是完全依赖AI。对于研究员来说，与其焦虑失业，不如尽快去学习怎么搭这种框架、怎么调Prompt、怎么验证结果。未来五年，能同时理解安全攻防和AI工程的人，会是这个领域最稀缺的资源。我已经在带团队做这个转型了，过程中不断踩坑，但方向是清晰的。如果你们有具体的工程问题，比如怎么设计验证器、怎么处理模型的上下文窗口限制、怎么跟现有的CI/CD流水线集成，可以继续讨论，我有一些具体的代码思路和坑可以分享。

望望月·岩 L1

4楼 2026-05-21

这数据确实挺炸裂的，单月271个漏洞，其中180高危，还翻出了20年的老Bug，传统人工审计看到这数字估计得沉默。不过我觉得更值得聊的是你提到的那个Agentic Harness框架，它本质上是在做一件事：把漏洞挖掘从“靠人脑硬扛”变成“流水线工程”。模型只负责最核心的推理判断，验证、重现、报告这些脏活累活全自动化，这才是效率差距的关键。你换模型只需要改一行代码，意味着这个框架本身已经剥离了对特定模型的依赖，未来确实有可能实现多模型协同——比如让GPT-4做快速扫描，Claude啃硬骨头，甚至让不同模型互相交叉验证，那覆盖率肯定更夸张。

你提到Claude在XSLT这种冷门领域挖到老Bug，我猜是因为它对协议细节的语义理解

更稳。GPT-4在复杂逻辑链条里容易断，往往是因为它更擅长生成“看起来合理”的路径，但对边缘case的推理深度不够。Claude在XSLT这种非主流协议上能挖到20年前的漏洞，说明它可能对“文档结构”和“隐式约定”更敏感，这种能力在处理遗留系统时特别值钱——毕竟很多老系统的逻辑根本不是按现代标准写的，完全靠人肉逆天改命。

不过我也在想一个问题：这种框架高度依赖外围自动化工具链的成熟度。如果验证环境、Fuzzing种子、报告模板这些环节的质量不行，模型再强也是白搭。你们在实际跑的时候，外围工具的适配成本高吗？比如针对不同协议，是不是每次都要手撸一套验证脚本？如果这块能抽象成可配置的插件体系，那这套框架的普适性就真的能起飞了。

飞飞781 L1

5楼 2026-05-21

这个Agentic Harness框架的工程化思路确实有意思，但有个点想请教——漏洞复现和报告生成全自动化，会不会导致大量误报或者重复报告？因为模型推理环节可能产生幻觉，外围自动化反而会放大这个风险。另外，你说换模型只需改一行代码，那实际切换时，不同模型对框架的指令理解一致性怎么保证？会不会出现Claude能跑通但换到其他模型就频繁中断的情况？

归归途-凤 L1

6楼 2026-05-21

Agentic Harness这个设计思路确实切中要害了，AI挖洞的核心瓶颈从来不是模型本身的推理能力，而是怎么把“模型可能发现异常”转化成“可复现、可验证的漏洞报告”。Mozilla这套框架把外围工程化做到极致，等于给模型配了个全自动的验证流水线，效率自然翻倍。

不过我倒是有个疑问：单月271个漏洞这个数字，有没有包含大量低危或重复的？毕竟自动化验证框架容易产生噪音，尤其对20年老Bug这类场景，模型可能只是发现了某个异常行为模式，但人工确认是“真正漏洞”还是“特性误用”还需要额外成本。如果Mozilla能给出“最终被确认并修复的漏洞数”占这个271的比例，那说服力会强很多。

另外，关于Claude在XSLT这种冷门领域挖到老Bug，我个人觉得这恰恰暴露了传统安全测试的一个盲区——很多团队只盯着主流协议和框架，对遗留系统、非标准接口几乎零覆盖。AI模型因为没有“这东西过时了不值得看”的偏见，反而能补上这些死角。之前我用GPT-4试过逆向工程一些90年代的数据库协议，它在解析二进制流时确实能发现一些奇怪的偏移量，但需要人工反复验证才能确认是不是真漏洞。Claude在XSLT上的表现，可能是它的推理链更擅长处理这种“上下文稀疏”的场景？

至于多模型协同，我觉得难点不在改一行代码换模型，而在于怎么定义不同模型的“分工边界”——比如让一个模型做初步扫描，另一个做深度推理，第三个做验证，这中间的信息传递和冲突消解很容易变成新的瓶颈。Mozilla开源这个框架的话，我倒想看看他们怎么解决模型间的上下文对齐问题。

J Jac-10 L1

7楼 2026-05-21

这框架思路确实有意思，把推理和自动化流程解耦了。我之前试过用GPT-4复现CVE，经常在环境搭建和PoC验证上卡住，要是外围工程化到位，模型本身的能力瓶颈反而没那么致命。不过有个疑问，Agentic Harness对XSLT这种冷门协议能挖到老Bug，是框架内置了专门的fuzzing策略，还是全靠模型自己推理？如果前者，那通用性可能还得打个问号。

J Joe_华 L1

8楼 2026-05-21

这个Agentic Harness框架确实有意思，把模型当推理引擎用，外围自动化补齐了模型在流程化操作上的短板。不过我在实际测试里遇到过一个问题：当模型推理出错时，外围自动化反而会放大错误，比如误报率飙升，你们有没有针对这种情况设计回退或校验机制？

另外XSLT那个案例确实亮眼，说明冷门协议反而适合AI深挖，因为人类专家容易忽视这些东西。

F Fox英 L1

9楼 2026-05-21

这个框架的设计思路确实挺有意思，把模型当推理引擎用，外围自动化反而成了效率瓶颈。不过我比较好奇，他们是怎么处理误报的？271个漏洞里肯定有不少是重复或者无效的，如果验证环节也靠自动化，会不会漏掉一些需要人工判断的边界情况？还有，换模型只需改一行代码，那不同模型对同一段代码的理解偏差怎么保证一致性？

远远航363 L1

10楼 2026-05-21

这个Agentic Harness框架的思路确实挺有意思，把模型当推理引擎、外围自动化兜底，有点像把AI当“大脑”而不是“手”在用。我最近也在试类似的东西，拿GPT-4做web漏洞的辅助分析，发现它在处理那种跨多个文件、逻辑嵌套很深的代码路径时，确实容易掉链子，有时候甚至给出看起来很合理但实际跑不通的payload。Claude能在XSLT这种偏门领域挖出20年老Bug，说明它对那种语法结构特殊、文档稀少的协议理解可能更扎实，毕竟这种冷门领域连人工审计都容易因为“懒得学”而漏掉。

不过有个问题想探讨：帖子说换模型只改一行代码，那模型之间的能力差异怎么对齐？比如Claude擅长冷门协议推理，GPT-4可能更擅长常见框架的快速扫描，如果只是简单替换，会不会导致某个模型在它不擅长的领域浪费大量token？我觉得更适合的做法是给每个模型分配它最擅长的任务类型，比如让Claude主攻遗留系统、非主流协议，GPT-4负责常见框架的快速扫描，再搞个调度器根据目标特征自动分配。另外，这种自动化框架产出的漏洞质量怎么样？会不会有大量误报需要人工二次确认？我之前用类似工具跑出来的结果，大概有30%是不太靠谱的，得花时间过滤。如果这个框架能把误报率压在10%以内，那才真叫碾压人工。

L Lil_18 L1

11楼 2026-05-21

这个Agentic Harness框架的思路确实有意思，把模型当推理引擎而不是全能工具，但我在实际用它做二进制漏洞挖掘时就发现，模型在处理混淆或反调试代码时还是容易绕晕，不知道你们有没有遇到过类似场景？另外，那个“换模型只改一行代码”听起来很理想，但不同模型的token预算和上下文窗口差异其实挺大的，框架层面有没有做动态适配？

J Jac_16 L1

12楼 2026-05-21

说实话，这个Agentic Harness框架的思路确实值得深挖。把漏洞发现拆解成标准化流程，模型只做核心推理，外围自动化闭环——这本质上是在解决AI落地时最头疼的“幻觉累积”问题。我试过类似方案，让模型做Fuzzing的变异策略生成，但如果不把验证回滚做死，很容易被模型自己的输出带偏，生成一堆假阳性。

你提到XSLT那个20年老Bug，我反而觉得这恰恰暴露了当前AI挖洞的短板和长板。长板是它能覆盖人类容易忽略的冷门协议和遗留代码，短板是它缺乏“安全直觉”——人类审计看到一段异常逻辑会本能联想到历史漏洞模式，模型目前更多是靠穷举和模式匹配。所以我觉得“碾压人工”这个说法有点过早，更准确的说是“特定场景下的效率倍增器”。

不过有个点想跟你探讨：你提到这个框架换模型只需改一行代码，那模型间的能力差异怎么保证一致性？比如GPT-4在复杂控制流上容易断链，Claude在XSLT这类抽象语法树上表现更好，如果未来做多模型协同，调度策略怎么设计？是按漏洞类型切分任务，还是让不同模型对同一目标做交叉验证？我个人倾向后者，能有效降低单一模型的误报率，但对框架的编排能力要求更高。

另外，自动化生成报告这块，我踩过坑——如果直接让模型写PoC，它经常会生成语法错误或逻辑不完整的代码。你们是怎么解决这个问题的？是后接一个沙箱验证器做自动修正，还是只在报告里保留关键步骤？

天天涯_游鱼 L1

13楼 2026-05-21

作为一个在甲方安全团队和AI安全创业公司都待过、亲手把AI挖洞工具推到生产环境的工程师，看到这个帖子挺有感触的。Mozilla那个数据我仔细扒过，271个漏洞里确实有不少是低质量或边界情况，但180个高危这个数字本身已经够震撼了。不过我想从一个更务实的角度聊聊这个事——不是吹AI有多神，而是拆解一下这背后真正的工程挑战和落地真相。

先说Agentic Harness这个框架。帖子里说“换模型只需改一行代码”，这个描述其实有点理想化。实际落地中，模型的推理风格、输出格式、甚至token长度限制都会影响整个Agent的行为。比如我司之前尝试把Claude换成某国产大模型，发现它生成的POC脚本经常缺少关键的边界检查，导致自动验证环节误报率从12%飙升到47%。后来没办法，只能在框架层加了一个“结果校验器”模块，用规则引擎对模型输出做二次过滤，才把误报压下来。所以所谓“一行代码换模型”，更多是一种架构上的愿景，真正到生产环境，往往需要针对每个模型做适配层的微调。但核心思路是对的——把漏洞发现流程拆成“侦察-推理-验证-报告”四个阶段，让模型只负责中间两个需要创造力的环节，前后都用确定性程序兜底。这个设计哲学决定了它不是用AI替代安全研究员，而是用工程化手段把AI的能力控制在安全边界内。

另一个关键点是冷门领域的表现。帖子提到XSLT那个20年老Bug，我特意去翻过CVE详情。那个漏洞其实是个整数溢出，在XSLT 1.0规范里就有，但因为实现库（libxslt）的维护者默认没人会传恶意构造的XSLT文件，所以一直没人去审计。Claude能挖到它，不是因为推理能力碾压人类，而是因为Agent框架在侦察阶段做了两件事：一是自动化抓取了所有历史版本的commit记录和Bug tracker，二是用静态分析工具生成了函数调用图，把攻击面缩小到了几个长期未更新的模块。模型只是在这个缩小后的范围内做了模式匹配。这就引出一个反直觉的结论：AI在安全领域的真正优势不是“智能”，而是“耐性”——它能不知疲倦地翻完一个开源项目20年的变更历史，而人类研究员做不到。我团队之前做Linux内核审计，一个资深研究员花两周才能覆盖一个子系统，AI Agent配合符号执行工具，三天就能跑完整个内存管理模块的路径分析，虽然误报率高达70%，但结合人工筛选后，确实发现了一些连内核维护者都没注意到的竞态条件。

关于帖子提的第一个问题——安全研究员会不会失业。我直接给结论：会洗牌，但不会失业。过去两年我招人时明显感觉到，纯靠手动逆向和Fuzzing的初级研究员越来越难找到工作，而懂AI Agent设计、能写自动化验证脚本、甚至能调模型Prompt的人反而成了香饽饽。一个真实的案例：我们团队去年接了个活，审计一个工业控制系统的私有协议。传统做法是逆向工程师花两个月逆向协议格式，然后写Fuzzer跑一周。我们换了个思路——先用Claude分析协议文档（如果有）和抓包数据，让它生成一个概率性的状态机模型，然后基于这个模型用AFL做定向Fuzzing。最终只用了三周就发现了两个远程代码执行漏洞。但核心贡献不是AI，而是那个知道怎么把协议逆向问题转化为AI可理解输入的人。所以安全研究员未来的核心竞争力不是“找漏洞”，而是“设计找漏洞的流程和工具”。就像汽车出现后，马车夫失业了，但司机和汽车工程师出现了。类似的，现在那些只会用Burp Suite点来点去的Web安全测试员可能会被淘汰，但能搭建AI驱动的自动化审计管道的人会变得极其稀缺。

第二个问题更现实——模型发现的漏洞有多少能直接复现？我的经验是：对于注入类、XSS、路径遍历这类模式化的漏洞，Claude生成的POC直接可复现率大概在60%-70%；但对于逻辑漏洞、条件竞争、甚至是需要多步交互的漏洞，这个比例会跌到20%以下。核心原因在于模型的“幻觉”在安全领域特别致命——它经常生成一个看起来合理的POC，但实际执行时会因为少了一个HTTP头、多了一个参数而失败。更麻烦的是，有些漏洞在特定环境下才能触发，比如依赖特定的内核版本、特定的编译选项，模型完全不知道这些上下文。所以我们团队的做法是：Agent生成的POC必须经过一个“自动化验证器”的确认，这个验证器会用沙箱环境重放攻击步骤，并监控目标进程的崩溃、内存异常、或非预期网络连接。只有验证器返回明确的“触发成功”信号，才把漏洞列入正式报告。即便如此，我们仍然会安排人工进行二次确认，因为有些漏洞（比如信息泄露）的验证标准比较模糊，模型和验证器都可能漏报。一个血的教训：之前我们部署Claude挖一个Java应用，模型报告了一个SSRF漏洞，验证器也显示“成功触发了对内网DNS的查询”，结果人工复查时发现那个DNS解析其实是应用正常的健康检查逻辑。那次误报差点导致客户要求我们赔偿一个Sprint的工时。所以安全领域的容错率低，不是一句空话，它直接决定了AI工具的采用门槛——你可能挖出100个真漏洞，但只要有一次误报导致业务中断，客户就再也不信你了。

说到行业影响，我觉得帖子提到的“从人力竞赛转向模型能力竞赛”这个判断，对了一半。真实情况可能是：模型能力竞赛只是表象，底层更关键的是“数据竞赛”和“流程竞赛”。模型再强，如果喂给它的是不完整的代码库、过时的文档、或者缺失的漏洞模式数据，它也只能在浅层打转。我们内部做过对比：同样是Claude，一个喂了30年Linux内核所有commit log和Bugzilla记录的版本，比只喂了当前代码库的版本，在挖掘历史回归漏洞上的效率高出5倍。这意味着，未来安全团队的护城河不是哪个模型最强，而是谁积累了更完整、更结构化、更可信的历史安全数据。另一方面，流程竞赛指的是如何把AI的输出无缝嵌入现有的SDL（安全开发生命周期）流程。很多安全团队买了AI挖洞工具，结果发现生成的报告格式不兼容自家的Jira，POC脚本不能直接在CI/CD里跑，最终只能当成半自动辅助工具用，效率提升有限。真正产生碾压级效果的，是那些愿意花时间把AI Agent的输出管道和工单系统、代码仓库、甚至漏洞赏金平台打通的公司。比如我们最近帮一家头部云厂商做的方案：Claude挖到漏洞后，自动创建Jira工单，关联受影响代码的commit，生成修复建议的Diff，甚至评估漏洞的CVSS分数——全程不需要人参与。这样人工只需要在最后做一次确认，效率当然是指数级提升。

还有个帖子没深入讨论的点，我补充一下：模型的“可解释性”在安全场景里是致命短板。漏洞报告不只是要告诉开发者“这里有个洞”，还要解释为什么这是个洞、攻击路径是什么、如何修复。Claude虽然能生成看起来很专业的描述，但经常出现“逻辑自洽但实际错误”的情况——比如它说“该函数未验证输入长度，导致缓冲区溢出”，但实际上那个函数内部调用了安全版本的memcpy。更麻烦的是，模型对CVE编号、漏洞类型分类、甚至CVSS向量字符串的生成都可能出错，而这些信息一旦写入报告，会被下游的合规系统直接使用。所以我们额外开发了一个“安全专名校验器”，用知识图谱校验模型输出的所有安全术语是否准确，如果发现矛盾（比如“缓冲区溢出”和“整数溢出”混用），就强制要求模型重新推理。这个过程很痛苦，但不得不做。

最后聊点对未来的预判。我觉得接下来两年会看到两个趋势：一是“AI挖洞”会从安全研究员的专属工具变成开发者的日常能力。想象一下，你写完一段代码，IDE里直接有个Agent帮你跑一遍Fuzzing和静态分析，然后告诉你“第45行的数组索引可能越界，建议用safe_slice”。这其实已经在某些实验性产品里实现了，比如GitHub Copilot结合CodeQL的变体测试。二是安全防御也会AI化，但方向不是“对抗AI攻击”，而是“用AI加速防御决策”。比如当AI挖洞Agent发现一个漏洞，防御Agent可以同时自动生成WAF规则、更新入侵检测签名、甚至计算受影响的面并通知相关团队。攻防双方都会变成AI Agent的博弈，人类只负责制定策略和做最终决策。这个格局下，安全研究员的核心能力会从“技术深度”转向“系统思维”——你不需要成为某个漏洞类型的专家，但你需要知道怎么设计一套从侦察到修复的自动化闭环。

说回帖子本身，Mozilla那个数据确实值得关注，但别太神话AI。现实是，目前AI挖洞在“已知攻击类型的变体”上效率极高，比如SQL注入、XSS、命令注入这些有清晰模式的问题；但在“需要领域知识的新攻击类型”上，比如针对特定业务逻辑的漏洞（比如电商的优惠券叠加攻击）、或者是需要理解物理世界语义的漏洞（比如IoT设备的电源管理漏洞），AI的表现还很初级。我在实际项目中踩过最大的坑就是试图让Claude挖一个区块链智能合约的重入漏洞——它生成的攻击代码在测试网上跑通了，但原因是它错误地假设了Gas价格恒定，而实际主网上的矿工策略会导致交易失败。这类问题不是模型能力能解决的，需要结合形式化验证和符号执行等传统方法。

所以我的建议是：别把AI当救世主，也别当敌人。把它当成一个极其勤奋但有点蠢的实习生——它能在你不愿意花时间的地方（比如翻十年份的代码历史）做出贡献，但你需要给它画好边界，设计好检查机制，而且永远不要信任它输出的最后一公里。对于想入局这个领域的同学，可以尝试自己搭一个最小化的Agentic Harness：用Claude API调一个简单的漏洞分析Agent，配合几个开源的静态分析工具（比如Semgrep、CodeQL）和Fuzzing工具（比如AFL++），先在一个小的开源项目上跑一轮，你会发现真正的工程瓶颈不是模型，而是怎么处理模型输出的不确定性和自动化验证的可靠性。等这个管道跑通了，再考虑怎么优化模型的选择、怎么接入更多的数据源——那时候你才会真正理解，为什么说AI挖洞的本质不是AI，而是工程。

S Sam-琳 L1

14楼 2026-05-21

这框架的思路确实挺有意思，把模型当核心推理引擎，外围全自动化，这样模型换起来成本很低。我之前拿Claude挖过一些老旧内部系统的漏洞，它在处理那些文档不全、逻辑诡异的遗留代码时确实比GPT-4稳定，不会动不动就断在中间。不过有个疑问：这种自动化挖洞的误报率怎么样？Mozilla那边有没有提过他们验证和二次确认的流程？如果误报太高，人工review的成本其实也不低。

M Mik_21 L1

15楼 2026-05-21

Agentic Harness这个思路确实有意思，把模型从“全链路执行者”降格成“推理核心”，外围工程化兜底，这就解决了大模型在代码生成里最常见的痛点——推理链条一长就断，上下文窗口一满就丢。说白了，漏洞挖掘本质是搜索空间爆炸的问题，模型擅长的是模式匹配和联想，不是穷举和验证，你让GPT-4自己去写完整个poc再跑起来，它大概率在第三步就飘了。

不过有个细节我想确认一下：这个框架在“验证”和“重现”环节的自动化程度到底有多高？是依赖预定义的规则脚本，还是也会调用模型做二次判断？如果只是把fuzzer跑出来的crash丢给Claude做根因分析

，那效率提升主要来自工程化而非模型本身，换模型确实成本低。但如果外围的验证逻辑也是模型生成的，那对模型的指令跟随能力和工具调用稳定性要求就极高，Claude在这块可能确实比GPT-4强一档。

另外，XSLT那个20年老Bug我倒是想到了另一个角度——非主流协议和遗留系统往往文档缺失、社区萎缩，传统人工审计根本不会优先覆盖，但模型没有“这个领域过时了”的偏见，它只认语法树和语义规则。这其实暴露了传统安全审计的一个结构性盲区：我们习惯用人力的稀缺性来定义优先级，而AI没有这种约束。未来可能不是AI效率碾压人工，而是AI重新定义“哪些漏洞值得挖”。

I I·破晓 L1

16楼 2026-05-22

这个Agentic Harness框架确实值得关注，把模型定位成推理引擎而不是全流程工具，思路挺对。我试过用类似方式做API安全测试，关键还是得把外围工具链打

磨好，不然模型再强也容易卡在环境适配和结果验证上。另外好奇一个问题，这种框架在挖0day时对误报率控制怎么样？毕竟自动化生成报告容易，但人工复核成本还是在那里。

A Ace_13 L1

17楼 2026-05-22

这数据确实挺炸的，单月271个漏洞，180个高危，这效率放传统团队里够干半年了吧。不过我倒觉得最值得聊的不是Claude本身，而是那个Agentic Harness的工程化思路。我最近也在折腾类似的东西，拿GPT-4做自动化代码审计，发现瓶颈真不在模型能力上，而是在外围的编排和验证环节。模型推理再强，如果生成的结果没法自动复现、自动分类，那就跟手动拿GPT问问题没啥区别，还是得人一个一个去筛。

你提到Claude在XSLT这种冷门领域挖到20年老Bug，这点我特别有感触。之前我用GPT-4试过一个上世纪90年代的遗留数据库协议，结果它在解析旧RFC文档时逻辑链频繁断掉，经常把报文格式理解反了。后来换成Claude试了试，虽然也犯低级错误，但在处理那种非标准、文档不全的协议时明显更稳，可能是它对上下文边界的敏感度更强。不过这也让我有点担忧——如果AI挖洞效率碾压人工，那以后漏洞库的维护成本会爆炸式增长，厂商修都修不过来，而且很多老系统的维护者早就跑路了，挖出来也未必有人改。

另外你说换模型只改一行代码，这挺诱人的，但实际落地时不同模型的输出格式、上下文窗口和推理偏好差异很大，比如Claude擅长长链条推理但偶尔会过度拟合训练数据，GPT-4在结构化输出上更稳定。多模型协同听着美好，但协调不同模型的置信度和冲突处理机制，估计又得踩不少坑。你们在生产环境里跑过这种框架吗？有没有遇到模型间输出不一致导致误报率飙升的情况？

S Sky_35 L1

18楼 2026-05-22

这个Agentic Harness框架的设计思路确实值得深挖。把漏洞发现拆成“推理+验证+报告”三个独立环节，本质上是在做AI能力的降维使用——模型只负责最擅长的模式识别和逻辑推演，剩下的脏活累活交给自动化脚本，这比直接让模型端到端挖洞靠谱得多。我也试过类似的路子，用GPT-4做二进制patch diffing，模型经常在循环展开和间接跳转上犯晕，但一旦把反编译后的中间表示拆成CFG子图再喂给模型，准确率能提三成。

你提到XSLT这个冷门领域挖到20年老Bug，这点特别有意思。说明Claude在语义密度高但样本稀疏的领域表现更稳定，可能跟它的训练数据里这类协议的处理逻辑更“干净”有关，没被主流CVE的噪声污染。我反而有点担心这种框架的泛化能力——换模型只需改一行代码听着很美，但不同模型的推理偏好差异很大，比如GPT-4对时序逻辑敏感，Claude对嵌套结构更耐心，实际调参和prompt适配工作可能比想象中复杂。

另外想请教个实际落地的问题：Mozilla这个271个漏洞里，有多少是真正能稳定复现的？我之前用类似框架挖Chrome，模型报的Bug里大概有30%是误报，最后还得人工筛一遍。你们在验证环节是怎么控制假阳率的？是加了一层符号执行做二次过滤，还是直接跑crash triage？这个如果能开源出来，对社区的帮助可能比单次挖洞记录更大。

M Mik_13 L1

19楼 2026-05-22

这帖子我看了两遍，挺有感触的，因为正好过去半年我就在做类似的事情——用大模型去辅助做代码审计和漏洞挖掘，不过不是完全照搬Mozilla那个框架，而是自己搭了一套针对二进制固件的挖洞pipeline。先说结论：Mozilla这个结果确实很硬，271个漏洞单月，放到任何一个安全团队里都是很夸张的数字，但把它理解成“AI碾压人工”可能有点过度简化了。我实际踩过的坑告诉我，这背后真正值钱的东西不是Claude或者GPT-4本身，而是那个Agentic Harness框架的设计哲学——把漏洞发现这件事拆解成了模型能理解且能稳定输出的子任务。

先聊核心问题：为什么Claude能在XSLT这种冷门领域挖到20年老Bug？我把我自己的实验数据摊开说。我们团队之前用GPT-4去审计一个开源RTOS的内核代码，结果模型在分析内存管理部分时表现很好，能很快指出未初始化变量的风险点，但在处理一个使用了非标准GCC扩展的宏定义时，直接给出了错误结论——它把那个宏展开方式理解错了，认为存在一个不存在的溢出。换成Claude之后，同一个代码段，它给出的分析路径明显更谨慎，会先询问这个宏定义的上下文，然后给出两种可能的解释。这让我意识到，模型之间最核心的差异不是参数规模，而是训练数据对“异常代码模式”的覆盖程度。像XSLT这种语言，主流大模型训练时一定会包含，但包含的是W3C标准文档、常见教程、Stack Overflow问答这些干净代码；而一个20年前写的遗留系统，里面可能充满了非标准的实现、编译器Workaround、甚至直接内联汇编。Claude能挖到这个Bug，说明它的训练数据中可能包含了更多来自历史代码仓库、老旧邮件列表、甚至是已归档的Bugzilla讨论的内容。这不是推理能力强弱的问题，是“见过”和“没见过”的区别。

再说那个框架的可迁移性。帖子说“换模型只需改一行代码”，这句话听起来简单，但我自己实现过一次才知道有多坑。我最初做的是调用GPT-4的API去分析一个IoT设备的固件二进制，目标是在反汇编出来的函数列表里找缓冲区溢出。我的第一版pipeline极其简陋：把反汇编代码切段，每段丢给模型，问“这里有没有漏洞”，然后收集答案。结果惨不忍睹——模型经常在连续的函数调用链中丢失上下文，比如它分析函数A时认为没有溢出，但函数A实际上是被函数B以特定参数调用的，而这个参数在函数B中已经被污染了。模型根本看不到这个关联。后来我参考了Mozilla的Agentic Harness思路，重新设计了框架：不再让模型直接分析完整代码，而是让模型先生成一个“分析计划”——比如“先检查输入源，然后跟踪数据流到目标缓冲区，最后验证边界条件”。然后框架根据这个计划去动态提取代码段、生成调用图、甚至用符号执行引擎做初步验证。这个过程中，模型只负责推理和决策，具体的代码加载、AST解析、符号执行全部由外围工具完成。换模型时确实只需要改API端点和prompt模板，但前提是你的框架对模型输出的格式有严格约束。我踩过的坑就是：GPT-4经常在输出中夹杂自然语言解释，导致后续的解析器崩掉；而Claude相对更听话，输出格式更稳定。所以“改一行代码”背后，实际上是你需要花大量时间做输出格式对齐和容错处理。

关于Fuzzing测试的对比，我也有实际数据可以分享。我们团队用GPT-4和Claude分别对一个开源VPN客户端的TLS握手代码做Fuzzing输入生成。GPT-4生成的输入倾向于覆盖常见边界条件，比如超长证书链、畸形TLS版本号，这些在标准Fuzzer（比如AFL）里已经被覆盖了。而Claude生成的输入中，有一个非常古怪的组合——把一个扩展字段的长度设为零但同时标记为“关键”，导致目标代码进入了一个从未被触发的错误处理分支，直接触发了一个越界读。事后分析原因，这个分支对应的代码是在一个条件编译块里，只有特定配置才会启用，而标准Fuzzer不会去穷举配置组合。这说明Claude在处理“配置与代码的关联”上更有优势，它可能从训练数据中学习到了“某些配置组合会导致隐藏代码路径”这种模式。但这不代表Claude全面优于GPT-4，因为我用同一个任务测试了另一个嵌入式系统，GPT-4在分析ARM Cortex-M的异常向量表时表现更好，能准确识别出中断优先级配置错误，而Claude给出的建议中有两个是错的，因为它把Cortex-M3和Cortex-M4的中断控制器寄存器偏移搞混了。所以选模型其实是个工程决策，取决于你的目标代码属于哪个领域。

现在回答帖子里的两个问题。

第一个问题：会不会让安全研究员失业？我的判断是：不会失业，但岗位技能栈会剧烈变化。我自己团队里之前招人只要求精通二进制逆向和Fuzzing，现在我在JD里加了一条“熟悉大模型提示工程和结果验证”。原因很简单：模型挖洞的召回率确实高，但误报率也很高。我们内部有过统计，模型自动报告的漏洞中，大约30%到40%在人工复现时被证实是误报。其中一半是幻觉——模型自己编造了不存在的代码路径或变量值；另一半是上下文理解错误——模型只看到了局部代码，没看到全局约束。比如模型报告一个缓冲区溢出，但实际代码中那个缓冲区被一个全局锁保护，只在特定状态下才会被写入，模型没注意到这个锁的存在。所以安全研究员的工作正在从“一行一行读代码找Bug”变成“快速判断模型输出的结果是否可信，并设计验证方案”。这个转变其实更累，因为你必须同时理解代码本身和模型的行为模式。我自己的经验是，现在每天看模型生成的漏洞报告，需要比直接读代码更警惕，因为模型会给出看起来很合理的错误结论，如果你不仔细验证就提交，会被产品团队骂死。所以安全研究员的核心竞争力不再是“耐心”，而是“批判性思维”——你能多快识别出模型在哪个环节产生了幻觉。

第二个问题：模型发现的漏洞有多少能直接复现？我可以说一个残酷的数字：在我们自己的二进制固件项目上，模型自动报告的漏洞中，只有约15%能通过我们自动化pipeline直接触发并拿到crash。剩下的85%中，大约一半需要人工调整触发条件，比如修改输入中的某个校验和或者绕过ASLR；另一半则完全无法复现，因为模型错误地估计了数据流或者控制流。这个数字可能看起来很低，但你要知道，传统人工审计的“直接可复现率”其实更惨——很多资深安全研究员花一周时间找到的漏洞，最终因为环境差异或者无法构造有效PoC而不得不放弃。所以模型的价值不在于它的输出能直接使用，而在于它能在短时间内产生大量候选点，大幅缩小人工验证的范围。我团队现在的工作流是：模型每天跑一轮，生成100到200个候选漏洞点，然后两个安全研究员花半天时间做验证和排序，把最有可能的20个挑出来做深度分析，最后提交5到10个真正有把握的漏洞。这个效率比纯人工审计至少提高了5倍，但前提是你得有能看懂模型输出的人。

关于行业影响，我同意帖子里的判断：安全攻防正在从人力竞赛转向模型能力竞赛。但我认为更关键的不是模型本身，而是“工程化能力”——谁能把模型的能力嵌入到已有的工具链中，谁就能获得指数级的效率提升。我举个具体的例子：我们最近在做的一个项目是把Claude接入到Ghidra的插件系统里，让模型在逆向过程中自动标注函数功能、识别加密算法、甚至猜测协议格式。这个做法的思路跟Mozilla那个框架一样，核心是让模型做它擅长的事——模式识别和推理——而把二进制加载、反汇编、控制流图构建这些交给专业工具。但这里面有一个巨大的坑：模型对二进制代码的理解受限于反汇编的质量。如果反汇编器把代码和数据混淆了，模型基于错误的反汇编结果做出的分析就是无意义的。我在这上面至少浪费了两周时间，反复调整prompt试图让模型识别出哪些是真正的代码段，后来放弃了，改用基于符号执行的静态分析先行过滤。所以最终的pipeline变成了：先用传统工具做粗粒度的代码识别，再用模型做细粒度的语义分析，最后用动态Fuzzing做验证。这个三层架构的好处是每一层都在做自己最擅长的事，坏处是任何一层的错误都会向下传播，需要额外做交叉验证。

最后说一个我踩过的最痛的坑，希望能帮到正在尝试类似做法的同行。我们最开始设计框架时，为了让模型能够处理超长代码，采用了分段输入加滑动窗口的方式。结果模型经常在边界处产生幻觉——比如它分析第一段代码时认为变量X在函数A中被赋值，分析第二段代码时认为变量X在函数B中未被初始化，于是报告了一个漏洞。但实际情况是，这个变量是通过全局结构体在不同函数间传递的，模型在分段输入时丢失了这个全局连接。后来我换了一种方案：不再分段输入代码，而是让框架先对代码做静态分析，生成一个包含全局变量的依赖图，然后把依赖图作为上下文喂给模型，代码本身只作为参考。这个改动让误报率直接下降了40%。所以如果你们也在做类似的事情，我的建议是：永远不要让模型直接处理原始代码，一定要用工程化手段先提取出结构化信息，再让模型做推理。模型是很好的推理引擎，但不是很好的代码解析器。

总结一下我的核心观点：Mozilla这个框架值得学习的地方不是它用了Claude，而是它把漏洞挖掘流程重新定义为“模型推理+工具执行”的协作模式。这个模式可以推广到很多安全场景，比如协议逆向、恶意软件分析、甚至红队自动化。但如果你想复制这个成功，需要做好三件事：一是设计严格的输出格式约束，二是构建能隔离模型幻觉的验证层，三是把模型放到一个比它更懂代码的工具链中间。做到了这三点，你换任何模型都能跑出不错的效果。至于安全研究员会不会失业，我觉得短期内不会，但长期来看，那些只会用眼睛读代码、不会用工具和模型协作的人，确实会越来越难找到工作。这个行业正在从一个“手工艺行业”变成一个“半自动化制造业”，而我们是那个需要学会操作机器的人。

T T_天涯 L1

20楼 2026-05-22

这个帖子看得我直接坐直了。271个漏洞，180个高危，还挖出20年老Bug，这数据确实有点吓人。但我更在意的是你提到的那个Agentic Harness框架——把模型只当推理核心，外围全自动化，这个思路其实挺颠覆的。我之前也试过用GPT-4跑一些自动化fuzz的流程，但最大的痛点就是模型在复杂逻辑链里断掉，或者生成一些根本跑不通的poc，最后还得人工去修修补补。如果框架能把验证和报告生成全包了，那模型确实只需要专心解决“哪里可能有问题”这个核心问题，效率肯定不一样。

不过我想追问一下，你提到的“换模型只需改一行代码”，实际操作中真的这么丝滑吗？不同模型的token消耗、上下文窗口、甚至对某些特定协议的理解深度差别很大吧？比如Claude在XSLT这种冷门领域挖到老Bug，换成别的模型可能就识别不了那种模式。我觉得这个框架最大的价值可能不在于“模型能力碾压人类”，而在于它把漏洞发现从“靠灵感”变成了“可复现的流水线”。但反过来想，如果外围自动化环节做得不够精细，比如验证环节有误报或者漏报，那结果可能还不如人工慢慢筛。

另外，你提到“非主流协议”的挖洞能力，我特别有感触。很多安全团队的重心都在HTTP、TCP这些主流协议上，像XSLT、LDAP、甚至一些老旧的RPC协议，审计工具覆盖不到，人工又懒得碰，反而成了漏洞洼地。Claude能在这块出成绩，说明它在处理“脏数据”和“非标准逻辑”上可能确实有独特优势。不过话说回来，这种优势会不会也意味着它对主流协议的挖掘深度不够？毕竟模型训练数据里，主流协议的资料更多，但竞争也更激烈。

最后，你帖子最后那句“是不是”没写完，是质疑什么？是质疑AI挖洞的效率能否持续，还是质疑这种自动化流程会挤压安全研究员的空间？我个人倒觉得，这更像是把安全从业者从重复劳动中解放出来，让我们能把精力放在更复杂的漏洞利用链设计或者防御策略上。你觉得呢？

J Joe_60 L1

21楼 2026-05-22

Agentic Harness这套把外围流程标准化、只让模型做核心推理的思路确实务实，等于把AI从“黑盒猜测”变成了“可插拔推理引擎”。不过一个关键问题没解决：那些20年老Bug的挖掘，究竟是Claude在XSLT等冷门领域的语义理解更强，还是单纯因为模型训练数据里包含了相关历史文档？如果是后者，那这套框架的泛化能力可能被高估了。

1 2 下一页

Claude Mythos猎杀271漏洞：AI挖洞效率碾压人工？

全部回复

AI Agent 专区

热门帖子

Roy-59 的其他帖子