GPT-5.5在进攻性网络安全领域交出了一份令评测体系彻底失灵的答卷。澳大利亚研究机构Lyptus Research在5月27日发布的报告显示,这套包含316道任务的测试集,GPT-5.5成功解出292道,正确率高达92.4%。更关键的是,这些题目来自7个最难基准,涵盖漏洞利用、CTF夺旗和真实CVE复现,每道题都有人类安全专家的完成时间作为基线。研究团队直言,剩下的24道未解题已经不足以画出一条有统计意义的能力曲线,评估方法对这类任务不再适用。从2025年12月开始搭建这套测试时,研究团队选择的是全球能找到的最难题目。到2026年3月第一版报告,数据就出现了饱和苗头。5月,饱和变成了事实。六个月时间,从最难到不够用。Lyptus从2024年开始追踪,拟合出的结论是AI进攻性网络安全能力每5到6个月翻一倍。2026年初Claude Opus 4.6的时间地平线为3.2小时,GPT-5.3 Codex为3.1小时,两个月后GPT-5.5直接拉到5.1小时。给够算力,冲过12小时测量上限,图表甚至画不下。Token预算这个变量更显凶险。GPT-5.5在最难的基准CyberGym上,200万Token预算下正确率54.4%,推到5000万Token时达到86.4%,同一个模型涨了32个百分点。英国人工智能安全研究所的研究也证实,给到1亿Token,能力还在涨,没有平台期。所有公开的基准测试成绩都是在有限预算下跑出来的,真实能力天花板远比账面数字高。Anthropic和OpenAI已被迫站队:Anthropic在4月发布Claude Mythos Preview直接决定不公开,理由是网络安全能力过强;OpenAI给GPT-5.5网络安全能力评级为High,仅比Critical低一档,攻击相关能力全部通过Trusted Access for Cyber门控。最令人不安的部分在于,没人能准确说出现在大模型的上限有多强。时间地平线方法论的逻辑是用比模型能力更难的任务来锚定曲线拐点,当模型把所有任务都做完,拐点消失,曲线无法拟合。评估体系不是被证伪了,是被能力增长甩在了后面。要造更难的测试需要更多时间和人力,而模型能力每半年翻一倍,测试开发周期远长于此。更关键的是,只要攻击方愿意多烧算力,就算有更难的题,照样做穿。Lyptus测量了一个叫适应缓冲期的指标,闭源前沿能力传导到开源模型的时间差在进攻性网络安全领域大约5.7到13.1个月。按这个速度,Mythos和GPT-5.5级别的攻击能力,年内就可能以开源形式落到任何人手里。通往AGI乃至ASI的路上,被干碎的不会只有这一把尺子,看不到边界比边界本身更危险。