这个周末,智谱没有休息,而是用一份硬核成绩单让整个AI安全圈为之震动。多家外媒跟进报道,华尔街日报甚至直言“中国重置了AI竞赛”。核心事件是:智谱的GLM-5.2模型,在寻找安全漏洞这一高难度任务上,追平了Anthropic的旗舰模型Claude Mythos。代码安全公司Semgrep发布了一篇测评,标题直接引用了一句经典台词——“We have Mythos at Home”,意指GLM-5.2让Mythos不再是唯一的神话。

Semgrep的测试最初并非为了寻找最强开源模型,而是想厘清AI找漏洞的成绩究竟来自模型本身还是外部脚手架。结果令他们震惊:GLM-5.2在没有额外加持和引导的情况下,仅凭一个prompt和一堆代码裸跑,就在IDOR漏洞检测上拿到39%的F1分数。这个成绩不仅超过了同样裸跑的其他开源模型,甚至击败了搭载完整SDK和Opus 4.8的Claude Code——后者只有32%。更关键的是,每发现一个漏洞的计算成本仅0.17美元。而根据华尔街日报的报道,加入额外指令后,GLM-5.2的漏洞查找能力可以进一步追平Mythos。IDOR漏洞在安全圈以难检测著称,它考验的是模型能否发现“本该存在但缺失的校验”,而非简单的危险函数调用。目前IDOR在HackerOne漏洞类型榜上排名第四,是实战中最常被利用的漏洞之一。

性价比同样是这个故事的核心亮点。GLM-5.2的输出token价格仅为Claude Opus 4.8的五分之一、GPT-5.5的七分之一。在Kilo Code中跑规划任务,它能拿到9.0分,与Fable 5的9.1分几乎打平。Databricks研究员Yuchen Jin在X上评价说,这是“开源领域的Claude时刻”,他们看到的需求增长令人震惊。7AI的CEO Lior Div也指出,中国在持续缩小与美国的差距,且这一趋势不会停止。Stanford 2026 AI Index显示,美中两国最强模型之间的综合能力差距已收窄至2.7个百分点。智谱在过去四个月里连续发布了四个前沿级coding模型——GLM-5、5-Turbo、5.1、5.2,节奏与任何顶级实验室相比都不落下风。

安全漏洞这个维度的特殊性,还要从Mythos说起。它曾花两天、约2万美元的算力,挖出一个藏在OpenBSD里长达27年、从未被人发现的漏洞。Anthropic研究员Nicholas Carlini用一套后来被称为“Carlini Loop”的提示词驱动Mythos扫代码,翻出数百个bug,其中Ghost平台的一个漏洞在几周后就被黑客在野利用。安全圈有个词叫bugmageddon,描述的是AI发现漏洞的速度已经超过人类打补丁速度的现实——八年前,一个漏洞从被发现到被利用平均需要847天,现在这个窗口已经缩短到一天以内。曾领导Google安全团队的Niels Provos判断,这种局面正把全球用户推向更便宜但同样强大的中国开源模型。六月中旬,马斯克在X上说智谱最快到明年初就能在benchmark上追上美国顶尖模型,智谱创始人唐杰当时回复“不用那么久”。现在看来,至少在找安全漏洞这件事上,他说对了。对于AI从业者来说,GLM-5.2的出现意味着在安全审计、代码审查等关键领域,开源模型已经不再是“备选”,而是可以认真考虑的实战工具——尤其是在预算敏感的场景下,性价比优势将推动更多团队转向国产模型。