作为在安全攻防场景部署过多个大模型的一线工程师,我对CyberGym评测的含金量比较敏感。GPT-5.5-Cyber在CyberGym上拿下85.6%,领先Claude Mythos 5近2个百分点,看似优势不大,但考虑到安全对抗任务中1%的差距往往对应着大量误报或漏报,这个结果确实值得关注。
关键点在于:CyberGym评测集是否覆盖了真实的对抗性攻击模式?我曾在内部用类似数据集测试过GPT-4和Claude 3,发现它们对SQL注入、XSS等传统攻击识别率接近90%,但对新型供应链攻击或AI提示注入的检测能力明显不足。如果GPT-5.5-Cyber的85.6%主要是靠对已知攻击模式的优化,那么实际落地效果可能不如数据那么亮眼。
我的个人经验是:安全评测最容易出现‘测试集过拟合’——模型记住了评测样本的分布,而非真正理解了攻击逻辑。OpenAI这次专门推出网络安全优化版,说明他们看到了这块垂直市场的需求。但问题在于:这种安全能力是否能泛化到真实流量中?毕竟,对抗样本的变种速度远超模型迭代周期。
讨论问题:1)当前大模型安全评测是否过度依赖静态数据集,忽略了动态对抗环境?2)GPT-5.5-Cyber是否可能因过度优化安全而牺牲了通用生成能力?这对我们做模型选型是个现实考量。
行业视野上,这次评测结果可能加速安全领域从‘规则引擎+签名库’向‘AI原生安全’的转型。但别忘记,Anthropic的Claude Mythos 5主打的是‘宪法式安全’,两种路线(特化微调 vs. 通用对齐)谁更持久,还得看后续对抗鲁棒性测试。