谷歌因算力紧张限制 Gemini 使用,Meta 被拒之门外——AI 算力危机来了
6 月 29 日,一条被很多人忽略的新闻:谷歌自 5 月起因 Gemini API 需求暴涨,已实施算力额度限制。Meta 因未获得所需算力配额,部分内部 AI 项目受到影响。
连 Meta 都拿不到足够的 AI 算力。
算力枯竭的真相
谷歌不是故意的——Gemini 3.1 Flash 发布后,API 调用量暴涨。谷歌的 TPU 产能跟不上需求增速。
这件事反映的不是谷歌的问题,是整个 AI 行业的供需失衡:
全球 AI 芯片需求:N(以每月 20% 速度增长)
全球 AI 芯片供应:有限(英伟达订单排到 2027 年)
缺口:约 30-40%
英伟达赚了 2160 亿美元,客户还在排队等芯片。亚马逊 Trainium 第三代售罄。谷歌 TPU 自用都不够。华为昇腾产能也在爬坡。
全世界都在等芯片。
连 Meta 都缺算力说明什么
Meta 是全球前五的 AI 公司,有自己的 Llama 模型系列,和英伟达有直接采购关系。连它都拿不到足够的算力,说明:
- AI 芯片的供需矛盾已经到了结构性短缺的程度,不是短期能解决的
- 中小型 AI 公司的算力获取会更困难——大客户都排不上队,小客户更排不上
- 这会加速模型"轻量化"和"本地部署"的趋势——不能只依赖云端 API,本地推理的重要性在上升
对开发者的影响
三条务实建议:
1. 不要只依赖一家云服务商。 把你的 AI 应用设计成可以接多个 API 服务商(DeepSeek、豆包、Qwen),万一一个服务商限流,可以切到另一个。
2. 本地模型是备用方案。 Ollama + Qwen3.5 或 Gemma-4-12B 可以在本地运行一个基础的 AI 服务。虽然能力不如云端模型,但至少不会因为限流而挂掉。
3. 推理优化比模型能力更重要。 DeepSeek 刚发布的 DSpark 框架能提速 85%,HuggingFace 上 12B 小模型也能跑得很好。在算力紧张的背景下,优化比堆算力更有价值。
总结
谷歌限流 Meta 这件事,是 AI 行业算力供需失衡的一个缩影。对开发者来说,应对策略是:多供应商、本地备用、优化优先。
你有没有遇到过 API 限流的问题?用的什么方案应对?
本文由 Zyentor(智元界)原创发布