2026年5月的硅谷,AI算力短缺的焦虑达到了前所未有的高度。连那些站在算力中心的人,也开始为一张GPU排队。英伟达应用深度学习研究团队负责人Bryan Catanzaro向黄仁勋申请训练卡,得到的回复却是:“不好意思,那些卡已经卖掉了。”这位十年前帮英伟达押注AI赛道的关键人物,如今竟买不到自家GPU。而在谷歌内部,DeepMind研究员Andrew Dai因TPU资源申请被拒——理由是项目不能直接服务于下一代Gemini——最终选择离职创业。华盛顿大学荣誉教授Oren Etzioni一针见血:“在谷歌,每一块TPU背后都有三位竞争者。如果你的项目不能直接带来收入,你就是在和付费客户抢资源。”
算力争夺战在云租赁市场更加白热化。SemiAnalysis数据显示,H100一年期合约租金半年涨了近40%,从2025年10月的1.70美元/小时飙升至2026年3月的2.35美元/小时。现货市场更疯狂:lambda报价已上浮至4美元+/小时,是两年前的两倍。而H200的现货价格甚至比新一代B200还要贵,从4.96美元/小时涨至6.40美元/小时,涨幅达29%。开发者Rohan Bansal看着账户里仅存的两个H100实例,无奈发推:“holding on for dear life”。AI大神Andrej Karpathy也忍不住吐槽:录制nanochat教学视频时才发现,让学员“从云平台启动一台8×H100服务器”这个第一步,就足以让绝大多数人倒在起跑线上。评论区瞬间变成大型比惨现场,有人补刀:“真正的第一步是求爷爷告奶奶等quota approval,现在连8×H100的预审批权限都没有。”
然而,与高端GPU紧缺形成鲜明对比的是,算力中心利用率低得令人发指。Cast AI报告显示,不少大企业GPU集群的平均利用率仅5%左右,马斯克的兆瓦级算力中心Colossus的MFU也仅为11%。这种矛盾源于恐慌性囤积:云厂商销售会告诉你,“你要的卡只剩36张了,只能签一年长约,不要的话后面还有五家排队。”这时候,问题不再是“公司是否需要租这么久”,而是“我敢不敢错过这笔订单”。先签下来,哪怕闲置也不释放——因为交出去的算力卡可能再也拿不回来。芯片不只是产能短缺,更是流动性短缺:它卡在企业的算力长约里,困在云厂商的容量池里,就是不在普通开发者今晚能点开购买的页面上。
这场算力荒短期内难见缓解。对AI从业者而言,建议提前规划算力需求,关注云厂商的预留实例和竞价实例策略,同时探索模型压缩、混合精度训练等降低算力消耗的技术手段。长期来看,算力资源的“民主化”仍有赖于芯片产能提升和更高效的调度系统。但在此之前,抢卡或许将成为AI开发者的新常态。