智谱GLM-5.2追平Claude Mythos，开源安全模型迎来转折点

这个周末，智谱没有休息，而是用一份硬核成绩单让整个AI安全圈为之震动。多家外媒跟进报道，华尔街日报甚至直言“中国重置了AI竞赛”。核心事件是：智谱的GLM-5.2模型，在寻找安全漏洞这一高难度任务上，追平了Anthropic的旗舰模型Claude Mythos。代码安全公司Semgrep发布了一篇测评，标题直接引用了一句经典台词——“We have Mythos at Home”，意指GLM-5.2让Mythos不再是唯一的神话。

Semgrep的测试最初并非为了寻找最强开源模型，而是想厘清AI找漏洞的成绩究竟来自模型本身还是外部脚手架。结果令他们震惊：GLM-5.2在没有额外加持和引导的情况下，仅凭一个prompt和一堆代码裸跑，就在IDOR漏洞检测上拿到39%的F1分数。这个成绩不仅超过了同样裸跑的其他开源模型，甚至击败了搭载完整SDK和Opus 4.8的Claude Code——后者只有32%。更关键的是，每发现一个漏洞的计算成本仅0.17美元。而根据华尔街日报的报道，加入额外指令后，GLM-5.2的漏洞查找能力可以进一步追平Mythos。IDOR漏洞在安全圈以难检测著称，它考验的是模型能否发现“本该存在但缺失的校验”，而非简单的危险函数调用。目前IDOR在HackerOne漏洞类型榜上排名第四，是实战中最常被利用的漏洞之一。

性价比同样是这个故事的核心亮点。GLM-5.2的输出token价格仅为Claude Opus 4.8的五分之一、GPT-5.5的七分之一。在Kilo Code中跑规划任务，它能拿到9.0分，与Fable 5的9.1分几乎打平。Databricks研究员Yuchen Jin在X上评价说，这是“开源领域的Claude时刻”，他们看到的需求增长令人震惊。7AI的CEO Lior Div也指出，中国在持续缩小与美国的差距，且这一趋势不会停止。Stanford 2026 AI Index显示，美中两国最强模型之间的综合能力差距已收窄至2.7个百分点。智谱在过去四个月里连续发布了四个前沿级coding模型——GLM-5、5-Turbo、5.1、5.2，节奏与任何顶级实验室相比都不落下风。

安全漏洞这个维度的特殊性，还要从Mythos说起。它曾花两天、约2万美元的算力，挖出一个藏在OpenBSD里长达27年、从未被人发现的漏洞。Anthropic研究员Nicholas Carlini用一套后来被称为“Carlini Loop”的提示词驱动Mythos扫代码，翻出数百个bug，其中Ghost平台的一个漏洞在几周后就被黑客在野利用。安全圈有个词叫bugmageddon，描述的是AI发现漏洞的速度已经超过人类打补丁速度的现实——八年前，一个漏洞从被发现到被利用平均需要847天，现在这个窗口已经缩短到一天以内。曾领导Google安全团队的Niels Provos判断，这种局面正把全球用户推向更便宜但同样强大的中国开源模型。六月中旬，马斯克在X上说智谱最快到明年初就能在benchmark上追上美国顶尖模型，智谱创始人唐杰当时回复“不用那么久”。现在看来，至少在找安全漏洞这件事上，他说对了。对于AI从业者来说，GLM-5.2的出现意味着在安全审计、代码审查等关键领域，开源模型已经不再是“备选”，而是可以认真考虑的实战工具——尤其是在预算敏感的场景下，性价比优势将推动更多团队转向国产模型。

智谱GLM-5.2追平Claude Mythos，开源安全模型迎来转折点

相关推荐

Agnes推Pavo平台：AI短剧创作免费体验

中国空调在欧洲卖爆了，老外急到用 AI 跟黄牛抢货

Agnes推Pavo平台：AI短剧创作免费体验

中国空调在欧洲卖爆了，老外急到用 AI 跟黄牛抢货

Agnes推Pavo平台：AI短剧创作免费体验

📖 更多原创