刚看到DeepSeek首轮融资500亿的消息,阿里、腾讯、大基金各100亿,老梁个人跟投200亿,估值3500亿。说实话,这个数字在当前的AI融资寒冬里确实炸裂,但更让我关注的是那个98%的缓存命中率数据。
从技术角度拆解一下:缓存命中率98%意味着什么?在LLM推理服务中,缓存主要针对的是KV cache和prefill阶段的重复计算。我个人的落地经验是,一般开源模型在优化后能到70%-80%就不错了,98%意味着他们大概率做了深度的结构化缓存策略,比如基于prompt模板的层级缓存或者跨请求的共享缓存。这不仅是成本问题——推理预算直接砍半以上——更是延迟优化,对于需要实时交互的ToB场景,比如金融客服或代码助手,这个指标直接决定了产品能否商用。
但这里有个技术疑点:high hit rate往往是以牺牲cache diversity为代价的。如果DeepSeek的服务场景偏向高频固定prompt(比如企业API调用),那98%还算合理;但如果他们做的是开放域对话,这个数字就值得推敲了——毕竟长尾查询的缓存粒度和失效策略很难兼顾。我猜他们可能在中间加了一层动态路由,把常见请求打到缓存池,冷门请求走实时计算。
这波融资看的是战略卡位:阿里和腾讯同时入局,摆明了要在国产大模型基础设施上押注。我的问题是:第一,98%缓存命中率是在什么负载和时延要求下测的?第二,他们有没有公开过缓存失效策略(比如TTL或LRU变种)?这对评估实际可用性很关键。
对行业来说,这标志着国产大模型从“拼参数”进入“拼工程效率”阶段。成本控制能力才是ToB落地的真正壁垒,DeepSeek如果真能把推理成本压到OpenAI的1/5,那国内SaaS公司可以省下一大笔预算。