GPT-5.5首破ProgramBench零通过率，编程AI进入新纪元

今天，GPT-5.5在全球首个零通过率编程基准ProgramBench上打破了僵局。这个由Meta联手斯坦福、哈佛刚刚发布的基准包含200道题，所有前沿AI模型——包括Claude Opus 4.7、GPT-4o等——此前一道题都没能解出。GPT-5.5的突破意味着编程AI的能力终于迈过了从“修修补补”到“从零构建”的质变门槛，给整个行业带来了新的信号：推理算力正在成为决定编程AI水平的核心变量。ProgramBench的难度在于它彻底改变了游戏规则。传统编程基准如SWE-bench或HumanEval本质上是“修bug”或“补函数”，模型拿到一个已有代码库，被告知哪里坏了，然后去修复。这是半开卷考试。而ProgramBench只给一个编译好的可执行文件和一份文档，要求模型从零开始把程序重写出来，不许看源码、不许反编译、不许联网。200个任务从小工具jq、ripgrep到重量级的FFmpeg、SQLite、PHP编译器，覆盖了真实开发中的各种场景。GPT-5.5攻克的第一个任务是cmatrix——一个经典的终端“黑客帝国”数字雨效果程序。更令人惊讶的是，GPT-5.5的high和xhigh两个推理级别选择了完全不同的语言：high版用C语言，xhigh版用Python，最终都通过了全部行为测试。high版先用10轮探索测试了40多种flag组合，彻底摸清原程序行为后一次性写出完整C实现，仅用5次微调修补搞定；xhigh版更彻底，27步探索把每一条CLI路径摸了个遍，然后一气呵成写出完整Python实现。关键数据揭示了推理算力的巨大影响。未开高推理模式的GPT-5.5（medium）成绩仅比Claude Sonnet 4.6好一点，但一旦切换到xhigh模式，性能直接起飞：不仅首次解出一道题（通过率0.5%），还创下了26个任务通过95%以上单元测试的“几乎解出”新纪录。在完整的累积直方图上，GPT-5.5 xhigh全程碾压所有对手，无论选什么指标——平均分、中位数、≥90%通过率、≥50%通过率——它都是第一。对比之下，Claude Opus 4.7 xhigh的表现令人唏嘘。它花费了$10.74，调用了178次API，是GPT-5.5普通版$1.04、17次调用的10倍，结果19个测试失败，全场最差。失败原因出人意料地简单：两个bug——颜色解析大小写敏感（用了strcmp()而不是strcasecmp()，导致11个测试失败）和无效颜色退出码写错（原程序返回exit(0)，Opus写成了exit(1)，导致8个测试失败）。讽刺的是，Opus在探索阶段明明观察到了原程序的行为，却在测试自己实现时忽略了差异。ProgramBench的出现标志着编程基准进入新阶段。SWE-bench的通过率已被卷到88.7%，GPQA上AI已超过大多数PhD，这些eval正在快速“融化”，分数越来越高，区分度越来越低。而ProgramBench的200道题至今只有1道被解出，通过率仅0.5%。这次破纪录揭示了一个关键趋势：推理算力正在成为编程AI能力的核心变量。GPT-5.5在默认推理模式下表现平平，一旦切换到高推理模式就实现质的飞跃。对于AI从业者来说，这意味着未来编程AI的竞争将不再单纯依赖模型规模或训练数据量，而是转向推理阶段的算力投入和策略优化。对于开发者，这也提醒我们：即使是最前沿的AI，在面对真正“从零开始”的任务时，仍然需要大量的探索和试错，人类工程师的工程直觉和调试能力在可预见的未来仍然不可替代。

GPT-5.5首破ProgramBench零通过率，编程AI进入新纪元

相关推荐

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首

苹果智能眼镜或复制手表策略，剑指2000亿眼镜市场

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首