当DeepSeek一边推进700亿元融资、估值达到450亿美元,一边将V4-Pro API价格永久下调75%时,许多人感到困惑:这家公司到底靠什么赚钱?答案或许藏在一位海外博主的长文《DeepSeek's 10 trillion USD grand strategy》中。梁文锋并非在玩烧钱游戏,而是在下一盘价值十万亿美元的棋——参与塑造AI硬件生态,并从中冲击万亿美元级估值。这不是简单的API生意,而是一场从技术底层重构行业格局的豪赌。

DeepSeek的技术创新路径充满反共识色彩。当同行们堆砌Dense模型和参数量时,他们选择啃下MoE(混合专家模型)这块硬骨头,用更少计算量撬动更高智能。他们发明了更便宜的GRPO算法替代传统PPO,并率先跑通RLVR(基于可验证奖励的强化学习),将推理能力推向新高度。最令人瞩目的数据来自KV Cache:在kvcache.ai计算器上,处理100万token上下文时,1.6万亿参数的DeepSeek V4仅需5.48GB HBM,而其他顶级开源模型动辄需要60GB以上。这意味着缓存命中成本可低至0.025元/百万Token,不到Claude同类价格的3%。梁文锋曾言“不贴钱,也不赚取暴利”,当你的技术成本是别人的零头时,这句话才真正成立。

但DeepSeek真正的野心在于硬件生态重构。极致压缩KV Cache后,数据可以高效卸载到SSD上,减少对昂贵HBM的依赖——这直接利好NAND闪存和SSD市场。LPDDR内存则被SGLang团队验证可作为“权重暂存区”,模型权重先放在LPDDR中,需要时流式传输到HBM,大幅缓解压力。DeepSeek的MoE架构天然适配这一方案,而国产LPDDR速度仅落后0.5代,追赶在即。更关键的是,Engram模块用LPDDR中的哈希查表替代Transformer前向传播,用低成本内存读取取代昂贵GPU运算。这对受EUV光刻机限制的国产AI芯片意义重大:当你能用更多便宜内存替代更少昂贵算力,换道超车便成为可能。再加上DeepSeek投资的TileLang跨硬件编译框架,绕过了CUDA护城河,为国产芯片厂商打开生态突破之门。

展望未来,DeepSeek的战略路径清晰而大胆:通过技术降本推动API普及,同时拉动SSD、LPDDR、GPU等硬件需求,形成一个自循环的生态体系。对于AI从业者而言,这不仅是技术趋势,更是投资和研发方向的启示——关注那些能降低硬件依赖的创新架构,或许比追逐参数规模更有价值。梁文锋的棋盘上,每一步都在为十年后的AGI铺路,而开发者们需要思考的是:如何在这盘大棋中找到自己的位置。