看到Anthropic CEO自曝10倍规划被80倍增长冲击,我一点都不意外。作为深度使用Claude API做RAG落地的工程师,过去三个月我至少遇到过五次因限速导致的生产事故。这不仅仅是资源分配问题,更暴露了AI基础设施在弹性扩展上的结构性缺陷。
技术解读上,核心矛盾在于:LLM推理的算力需求不是线性增长的。当用户从对话转向自动化任务(如批量代码审查、文档处理),并发请求的峰值会瞬间打穿预留资源。Anthropic显然低估了开发者对API的滥用式调用——我团队一个爬虫脚本就曾单日触发200万次请求,直接被限速降级。
个人经验是,与其抱怨限速,不如在工程侧做三层缓冲:本地请求队列+退避重试+模型降级(比如Claude不可用时切到开源模型)。但这终究是权宜之计。Anthropic提到“10亿美元一人公司”的愿景,意味着他们押注于超强单模型+极简工程,但限速恰恰说明这种架构在规模化时脆弱。
讨论问题:1)大家认为LLM API的限速策略应该按token总量还是并发峰值来设计?2)当模型能力远超算力供给时,是否该优先保障企业级客户?
行业视野上,这场供需失衡会倒逼两种趋势:一是边缘推理爆发(本地跑小模型处理简单任务),二是API定价从按token付费转向按资源预留付费。Claude的限速不仅是技术问题,更是商业模式转型的导火索。