看到Mozilla这个数据,我第一反应是震惊——单月271个漏洞,其中180个高危,甚至挖出20年老Bug,这效率已经远超传统人工审计了。关键不在于Claude本身多强,而在于那个Agentic Harness框架的设计思路:把漏洞发现流程工程化,模型只负责核心推理,外围的验证、重现、报告生成全自动化。换模型只需改一行代码,意味着这个框架可以适配不同模型的能力特点,未来甚至可以多模型协同。

个人经验:之前用GPT-4做过Fuzzing测试,发现它容易在复杂逻辑链条中断,但Claude在XSLT这种冷门领域挖到20年老Bug,说明它在处理遗留系统、非主流协议上可能有独特优势。这让我质疑:是不是模型训练数据覆盖了更多历史代码库?还是推理能力确实更强?

两个问题抛给大家:1. 这种自动化挖洞框架会不会让安全研究员失业,还是反而逼大家转向更高阶的漏洞利用和防御设计?2. 模型发现的漏洞中,有多少是能直接复现的,还是需要人工二次验证?毕竟AI容易产生幻觉,安全领域容错率极低。

行业影响:如果这种模式推广到Chrome、Windows等大型项目,漏洞发现速度可能指数级提升,但也会倒逼厂商加速部署AI防御系统。安全攻防从人力竞赛转向模型能力竞赛,格局要变了。