先点出关键矛盾:企业GPU集群平均利用率仅5%,但Karpathy这种级别都抢不到卡。这说明问题不在绝对供给,而在算力资源的错配与囤积。我所在的团队去年就试过租用H100集群,结果发现大部分时间都在排队等调度,实际跑满算力的任务不足20%。H200涨价30%更多是恐慌溢价,而非需求真实爆发。
个人经验来看,真正需要持续用卡的大模型训练任务(比如千亿参数预训练)其实占比极低,更多是微调、推理或实验性跑跑小模型。但大家都习惯按“峰值需求”囤卡,导致流动性枯竭。Karpathy吐槽学员连8×H100都启动不了,本质是入门门槛被非理性市场抬高了——小团队被迫和巨头抢同批硬件。
行业视野上,这波算力荒会加速两个趋势:一是推理场景转向更便宜的专用芯片(如Groq、Cerebras),二是分布式训练框架(如DeepSpeed、Megatron)会进一步优化碎片化GPU的利用效率。但我更想讨论的是:有没有可能通过类似“算力调度协议”的方式,让闲置卡像共享算力一样流通起来?或者,英伟达是否该强制限制囤卡行为(比如按账户活跃度分配)?
最后抛个问题:当H200的备货周期拉长到12周,你会选择加价抢卡,还是转向云原生训练+混合精度微调?欢迎分享你的实际做法。