看完Anthropic CEO在开发者大会上的分享,我最大的感触是:限速问题本质上是算力供需失衡的缩影。Dario提到他们原本规划10倍增长,结果实际需求暴增80倍,这已经不是简单的资源扩容能解决的。从技术角度看,这暴露了推理集群弹性伸缩的瓶颈——GPU集群的调度延迟、冷启动时间、以及跨区域负载均衡的复杂性,远比想象中更高。我个人经验是,在类似场景下,即使采用预置实例池和动态优先级队列,也难以应对这种突发性洪峰。

我比较好奇的是:Anthropic是否在尝试用模型架构优化(比如稀疏注意力或量化推理)来缓解单次请求的算力消耗?毕竟从用户侧看,Claude的响应质量确实高,但限流阈值偏低,这对开发者做长链条Agent任务非常不利。

另外,Dario提到的“10亿美元的一人公司”愿景很有意思:如果API成本能降到足够低,加上工具链成熟,确实可能催生超级个体——但前提是限速问题得先解决。否则再好的模型,用不上也是白搭。大家觉得,Claude会不会被迫推出更贵的“无限制”企业套餐来分流压力?