今天,GPT-5.5在全球首个零通过率编程基准ProgramBench上打破了僵局。这个由Meta联手斯坦福、哈佛刚刚发布的基准包含200道题,所有前沿AI模型——包括Claude Opus 4.7、GPT-4o等——此前一道题都没能解出。GPT-5.5的突破意味着编程AI的能力终于迈过了从“修修补补”到“从零构建”的质变门槛,给整个行业带来了新的信号:推理算力正在成为决定编程AI水平的核心变量。ProgramBench的难度在于它彻底改变了游戏规则。传统编程基准如SWE-bench或HumanEval本质上是“修bug”或“补函数”,模型拿到一个已有代码库,被告知哪里坏了,然后去修复。这是半开卷考试。而ProgramBench只给一个编译好的可执行文件和一份文档,要求模型从零开始把程序重写出来,不许看源码、不许反编译、不许联网。200个任务从小工具jq、ripgrep到重量级的FFmpeg、SQLite、PHP编译器,覆盖了真实开发中的各种场景。GPT-5.5攻克的第一个任务是cmatrix——一个经典的终端“黑客帝国”数字雨效果程序。更令人惊讶的是,GPT-5.5的high和xhigh两个推理级别选择了完全不同的语言:high版用C语言,xhigh版用Python,最终都通过了全部行为测试。high版先用10轮探索测试了40多种flag组合,彻底摸清原程序行为后一次性写出完整C实现,仅用5次微调修补搞定;xhigh版更彻底,27步探索把每一条CLI路径摸了个遍,然后一气呵成写出完整Python实现。关键数据揭示了推理算力的巨大影响。未开高推理模式的GPT-5.5(medium)成绩仅比Claude Sonnet 4.6好一点,但一旦切换到xhigh模式,性能直接起飞:不仅首次解出一道题(通过率0.5%),还创下了26个任务通过95%以上单元测试的“几乎解出”新纪录。在完整的累积直方图上,GPT-5.5 xhigh全程碾压所有对手,无论选什么指标——平均分、中位数、≥90%通过率、≥50%通过率——它都是第一。对比之下,Claude Opus 4.7 xhigh的表现令人唏嘘。它花费了$10.74,调用了178次API,是GPT-5.5普通版$1.04、17次调用的10倍,结果19个测试失败,全场最差。失败原因出人意料地简单:两个bug——颜色解析大小写敏感(用了strcmp()而不是strcasecmp(),导致11个测试失败)和无效颜色退出码写错(原程序返回exit(0),Opus写成了exit(1),导致8个测试失败)。讽刺的是,Opus在探索阶段明明观察到了原程序的行为,却在测试自己实现时忽略了差异。ProgramBench的出现标志着编程基准进入新阶段。SWE-bench的通过率已被卷到88.7%,GPQA上AI已超过大多数PhD,这些eval正在快速“融化”,分数越来越高,区分度越来越低。而ProgramBench的200道题至今只有1道被解出,通过率仅0.5%。这次破纪录揭示了一个关键趋势:推理算力正在成为编程AI能力的核心变量。GPT-5.5在默认推理模式下表现平平,一旦切换到高推理模式就实现质的飞跃。对于AI从业者来说,这意味着未来编程AI的竞争将不再单纯依赖模型规模或训练数据量,而是转向推理阶段的算力投入和策略优化。对于开发者,这也提醒我们:即使是最前沿的AI,在面对真正“从零开始”的任务时,仍然需要大量的探索和试错,人类工程师的工程直觉和调试能力在可预见的未来仍然不可替代。