刚看到微软多Agent系统在AI漏洞发现基准测试上超越Anthropic的Mythos,以5个百分点优势登顶。表面上是Agent编排的胜利,但深入技术细节会发现,微软这套系统整合了多个外部前沿模型,而非完全依赖自有模型。这实际验证了一个我在实际渗透测试中反复体会到的观点:漏洞挖掘的瓶颈往往不是单一模型能力,而是多视角协作与工具链的深度耦合。

从工程角度看,多Agent架构中每个子Agent负责不同任务(如静态分析、动态执行、模式匹配),模型只是其中的“推理引擎”。我个人的经验是,当Agent之间缺乏有效的信息共享机制时,即使每个模型都是SOTA,整体效能也会大打折扣。微软这次很可能在Agent间通信协议、任务分解粒度或结果聚合策略上做了优化,这些才是真正拉开差距的工程细节。

一个有讨论价值的问题:在漏洞挖掘这类高不确定性任务中,Agent系统的“试错成本”如何量化?另一个问题是:多Agent系统依赖外部模型,API延迟和token成本是否会成为实际部署的瓶颈?

从行业格局看,这标志着安全自动化从“单模型比拼”转向“系统工程竞赛”。未来真正能落地的AI安全工具,可能不是参数更大的模型,而是更聪明的任务编排与资源调度方案。