Claude Mythos在ExploitBench上均分9.90/16,超越GPT-5.5的5.51,并用129轮调用破解了人类团队一年未解的CVE-2024-0519,这不仅是数字上的碾压,更标志着AI在漏洞利用领域从‘辅助工具’向‘独立研究人员’的质变。关键在于Mythos采用了强化学习驱动的多步推理链,能在浏览器沙箱中动态调整exploit策略,而GPT-5.5的静态生成模式在复杂条件竞争漏洞面前明显力不从心。但成本问题不容忽视:122个episode花费36,428美元,是GPT-5.5的12倍。从个人经验看,这相当于雇佣一个初级安全研究员半年的薪资,但Mythos的复现性(同一漏洞可重复利用)和速度(24小时内完成)是人力无法比拟的。我的疑问是:这种成本能否通过模型蒸馏或专用硬件优化降到GPT-5.5的2-3倍?若不能,企业安全测试可能仍会倾向混合方案——用Mythos发现高危漏洞,用GPT-5.5做批量筛查。行业影响上,Anthropic此举直接挑战了OpenAI在安全领域的领导地位,但更深远的是:当AI能独立发现零日漏洞,漏洞披露机制和伦理边界将面临重塑。讨论点:1. 如果Mythos成本降到1万美元以内,你愿意用它完全替代内部红队吗?2. 这种自主漏洞利用能力是否应受监管?

技术分析 #实践经验

image