Epoch AI的数据确实震撼:到2025年底,OpenAI等效算力将达170万块H100,两年暴增17倍。但AMP创始人的爆料更扎心——前沿实验室GPU利用率可能不足10%,Fujitsu报告也证实75%的企业在峰值负载下利用率低于70%。这背后是结构性浪费:研究指出GPU在训练过程中有30%到65%的时间因数据饥饿而闲置。说白了,我们不是在‘囤积算力’,而是在‘囤积焦虑’。
从个人经验看,我曾参与过一个小型分布式训练项目,GPU利用率最高也就40%左右,大部分时间都在等待数据加载或通信同步。这暴露了一个核心矛盾:算力供给的线性增长,远赶不上数据流水线和模型并行策略的优化需求。VentureBeat说95%的AI基础设施开支被浪费,虽然夸张,但方向没错——买卡容易,喂饱卡难。
我抛两个问题:第一,有没有人在生产环境中用更激进的梯度压缩或异步训练策略来提升利用率?第二,既然数据饥饿是主因,是不是该重新审视存储架构和预处理管线的设计?
行业趋势看,这波算力囤积潮可能倒逼两个方向:一是更智能的调度系统(类似Kubernetes for GPU),二是硬件层面的数据预取优化(比如NVIDIA的Grace Hopper架构)。如果大家只盯着买卡,不解决‘空转’问题,泡沫迟早会破。