算力囤积潮背后：90%的AI芯片在空转

当你正沉浸在Vibe Coding的畅快中，或者项目突然停摆，CLI工具弹出「额度已用完」的提示时，第一反应往往是抱怨算力不够。但这种直觉可能错了。Epoch AI的数据显示，到2025年底，OpenAI等效算力将相当于170万块H100，而2023年这个数字仅为10万块，两年暴增17倍。英伟达市值突破3万亿美元，全球科技巨头每季度砸下数百亿美元抢购芯片。算力被视为AI的石油，但真相是，大量芯片并未真正工作。AI基础设施公司AMP创始人Anjney Midha在播客Latent Space中直言：「像xAI这样的前沿实验室，GPU利用率可能不到10%——这只是真正问题的冰山一角。」MFU（模型浮点运算利用率）是衡量GPU算力实际用于模型计算的指标。如果花5亿美元买了一个GPU集群，MFU只有10%，意味着有效算力仅值5000万美元，剩下4.5亿美元的算力在空转。这不是某家小公司的管理失误，而是结构性的行业秘密。Fujitsu在2024年发布的《AI基础设施状态报告》中引用了一组刺眼的数据：超过75%的企业在峰值负载下，GPU利用率仍低于70%。VentureBeat基于类似数据做出更激进的判断：「95%的AI基础设施开支被浪费了。」换算成具体损失：一块H100云实例每小时收费30到50美元，假设一个企业运行着20块GPU的小型集群，利用率仅20%，每年因闲置浪费的计算成本约为20万美元。对于拥有数万块GPU的前沿实验室，这个数字要乘以几个数量级。这让人想起1990年代末的光纤泡沫——当时铺设的光纤中，超过95%是从未被点亮的「暗光纤」。那么，算力明明存在，需求也旺盛，中间到底卡在哪里？答案在于数据准备环节。aixenergy的一项研究揭示，在AI训练过程中，GPU有30%到65%的时间处于闲置状态。不是因为任务分配不足，而是因为数据还没准备好。GPU的计算速度以每秒万亿次浮点运算衡量，但存储系统的IO速度远远跟不上。就像一条高速公路，收费站的吞吐量决定了实际车流量——不管公路修得多宽，收费站一次只能过两辆车。这种「数据饥饿」问题，使得世界上最昂贵的计算集群变成了昂贵的装饰品。未来，解决这一瓶颈的关键，或许不在于继续堆砌芯片，而在于优化数据管道和计算调度，让每一块GPU真正燃烧起来。

算力囤积潮背后：90%的AI芯片在空转

相关推荐

Meta掌门人：AI眼镜为何能取代手机？

GPT-5将生物实验效率提升79倍，开启AI自动化科研时代

阿里云CosyVoice AI输入法实测：语音转写惊艳，但有个短板

Meta掌门人：AI眼镜为何能取代手机？

GPT-5将生物实验效率提升79倍，开启AI自动化科研时代

📖 更多原创