当你正沉浸在Vibe Coding的畅快中,或者项目突然停摆,CLI工具弹出「额度已用完」的提示时,第一反应往往是抱怨算力不够。但这种直觉可能错了。Epoch AI的数据显示,到2025年底,OpenAI等效算力将相当于170万块H100,而2023年这个数字仅为10万块,两年暴增17倍。英伟达市值突破3万亿美元,全球科技巨头每季度砸下数百亿美元抢购芯片。算力被视为AI的石油,但真相是,大量芯片并未真正工作。AI基础设施公司AMP创始人Anjney Midha在播客Latent Space中直言:「像xAI这样的前沿实验室,GPU利用率可能不到10%——这只是真正问题的冰山一角。」MFU(模型浮点运算利用率)是衡量GPU算力实际用于模型计算的指标。如果花5亿美元买了一个GPU集群,MFU只有10%,意味着有效算力仅值5000万美元,剩下4.5亿美元的算力在空转。这不是某家小公司的管理失误,而是结构性的行业秘密。Fujitsu在2024年发布的《AI基础设施状态报告》中引用了一组刺眼的数据:超过75%的企业在峰值负载下,GPU利用率仍低于70%。VentureBeat基于类似数据做出更激进的判断:「95%的AI基础设施开支被浪费了。」换算成具体损失:一块H100云实例每小时收费30到50美元,假设一个企业运行着20块GPU的小型集群,利用率仅20%,每年因闲置浪费的计算成本约为20万美元。对于拥有数万块GPU的前沿实验室,这个数字要乘以几个数量级。这让人想起1990年代末的光纤泡沫——当时铺设的光纤中,超过95%是从未被点亮的「暗光纤」。那么,算力明明存在,需求也旺盛,中间到底卡在哪里?答案在于数据准备环节。aixenergy的一项研究揭示,在AI训练过程中,GPU有30%到65%的时间处于闲置状态。不是因为任务分配不足,而是因为数据还没准备好。GPU的计算速度以每秒万亿次浮点运算衡量,但存储系统的IO速度远远跟不上。就像一条高速公路,收费站的吞吐量决定了实际车流量——不管公路修得多宽,收费站一次只能过两辆车。这种「数据饥饿」问题,使得世界上最昂贵的计算集群变成了昂贵的装饰品。未来,解决这一瓶颈的关键,或许不在于继续堆砌芯片,而在于优化数据管道和计算调度,让每一块GPU真正燃烧起来。
算力囤积潮背后:90%的AI芯片在空转
AITNT
9小时前
3
1