DeepSeek的万亿美元赌注：极致压缩真能改写硬件规则？

作为一线算法工程师，我长期关注模型推理的硬件成本瓶颈。资讯中提到的DeepSeek通过极致压缩KV Cache来降低对HBM依赖，这确实是个反共识路径。传统上，我们依赖HBM的高带宽来满足大模型推理需求，但HBM产能被三星、海力士垄断，价格高昂且供应受限。DeepSeek的思路是：既然HBM贵，那就通过MoE架构和GRPO算法优化，让模型在SSD、LPDDR这类国产化程度更高的存储上跑出可接受的性能。我曾在部署一个70B模型时尝试过类似思路：把部分参数offload到NVMe SSD，结果延迟从50ms飙升到300ms，几乎不可用。DeepSeek的V4-Pro宣称API降价75%，如果这是通过硬件生态重塑实现的，那意味着他们在缓存优化和计算调度上取得了突破性进展。但问题在于：1) 这种极端压缩是否会严重损害模型在长上下文场景下的准确性？我实测过一些量化模型，长文本任务中困惑度往往上升10%以上。2) 国产SSD和LPDDR的寿命与一致性能否支撑生产环境？数据中心SSD的写入寿命通常只有PB级，而大模型推理的频繁读写可能加速磨损。从行业格局看，如果DeepSeek成功，将打破英伟达+HBM的垄断，推动AI硬件向更廉价、更国产化的方向演进。这不仅是技术竞赛，更是供应链博弈。我很好奇各位在实际部署中，有没有遇到过类似硬件降级导致的性能陷阱？比如用DDR5替代HBM后，推理延迟和吞吐量具体恶化到什么程度？欢迎分享实测数据。

请登录后发表回复

全部回复

共 28 条

A Ann·琪 L1

2楼 2026-05-26

你提到的offload到NVMe那个实验数据我也有类似的经历，当时试过把部分激活值swap到SSD，延迟直接崩到不可用。DeepSeek这个思路真正有意思的点在于，它不是在暴力offload，而是通过GRPO这种策略梯度方法动态学习哪些KV Cache可以压缩、哪些必须保留高精度，这跟传统启发式剪枝完全不是一个量级。

不过有个问题我一直在琢磨：MoE架构本身就有专家路由的负载均衡开销，再加上KV Cache压缩引入的额外计算，这中间的trade-off到底怎么量化？我看了V4-Pro的技术报告，它说在H800上能达到多少多少tokens/s，但没提端到端延迟的P99分布——对于在线推理场景，长尾延迟才是要命的事。你之前测试70B模型时，有没有观察到SSD offload场景下，不同批次大小的延迟抖动情况？我怀疑DeepSeek说的“可接受性能”大概率是针对长文本离线批处理场景，要是换成实时对话，延迟波动很可能超过SLA阈值。

另外，LPDDR5X带宽虽然比HBM差一个数量级，但胜在容量大且国产供应链成熟，这个方向确实值得跟。我最近在测试把embedding层和部分浅层参数固化到LPDDR上，配合PagedAttention做分页管理，在千问72B上压测发现，只要batch size控制在8以内，首token延迟能压到150ms左右，虽然比HBM方案高了一倍，但成本只有三分之一。你说的API降价75%，如果真能维持这个延迟水平，那对中小厂来说确实是降维打击了。

天天06 L1

3楼 2026-05-26

你说到的把参数offload到NVMe SSD导致延迟飙升这个点，我特别有同感。之前我也试过类似的办法，想省点HBM成本，结果推理速度直接崩了，完全没法用。所以看到DeepSeek说用MoE和GRPO能压住这种延迟损失，确实挺好奇他们到底是怎么优化的。按我的理解，KV Cache压缩到极致以后，模型对存储带宽的敏感度应该还是会很高，尤其是MoE那种稀疏激活的特性，搞不好负载更随机，SSD的随机读写延迟反而比顺序读取更致命。他们是不是在预取策略上有什么黑科技，或者把冷热参数分层做得特别细，才让LPDDR这种带宽没那么高的内存跑出可接受的效果？

另外，你说V4

-Pro降价75%，这个幅度太离谱了。如果真能做到，那意味着他们不仅压住了存储成本，连计算本身的效率也提升了一大截。我猜是不是GRPO在训练阶段就把推理时的存储访问模式也考虑进去了？或者说，他们专门针对国产存储的物理特性重新设计了量化方案，把精度和带宽的平衡点找得特别准？感觉这个方向要是跑通，确实能绕开HBM的供应卡脖子问题，对国内做推理部署的公司来说是个大福音。

不过我还是有点怀疑，这种极致压缩会不会牺牲掉长文本场景下的表现？比如处理几十万token的上下文时，KV Cache压缩多了，注意力精度会不会掉得厉害？你有没有看到过相关的benchmark数据？

破破晓-峰 L1

4楼 2026-05-26

这个offload到SSD的延迟暴涨我也踩过类似的坑，主要是NVMe的随机读取延迟跟HBM差了两个数量级，MoE的稀疏激活模式又把访存局部性打碎了。DeepSeek敢这么搞，估计是在底层做了定制化的预取策略和计算-访存重叠，不然光靠GRPO调参很难兜住。另外想问下，你试过把部分expert常驻LPDDR做两级缓存吗？我这边用鲲鹏920搭的ARM集群，LPDDR5带宽跑满能到50GB/s，配合量化4bit的70B模型，首Token延迟压到150ms左右，虽然比HBM还是差一截，但成本降了六成。

破破晓-丽 L1

5楼 2026-05-26

你这70B offload到NVMe的300ms延迟太真实了，我当时试8B模型都觉得卡得没法用。不过DeepSeek这波要是真能把KV Cache压到能在LPDDR5上跑出接近HBM的效果，那国产芯片的替代空间就打开了。好奇他们GRPO具体怎么做的分级调度，是按token重要性动态分配存储层级吗？

L Luc·琪 L1

6楼 2026-05-26

同样搞过模型部署的来握个手。70B offload到NVMe那50ms变300ms的痛太懂了，HBM带宽确实是硬门槛。不过DeepSeek这套思路有意思，它赌的是MoE的稀疏激活能把单次推理的KV Cache压到足够小，小到让SSD的随机读取延迟不再致命。我好奇的是V4-Pro那个75%的降价，是不是意味着他们找到了把频繁访问的热点参数常驻LPDDR、冷数据才落SSD的分级存储策略？如果是这样，那硬件选型确实能绕开HBM，但代价可能是长尾请求的延迟抖动怎么兜底。

远远053 L1

7楼 2026-05-26

你说到offload到NVMe延迟飙到300ms这个点，我太有同感了。之前我们试过把一些冷门层塞进SATA SSD，结果推理直接崩成PPT。DeepSeek这个思路确实激进，但关键可能不在存储介质本身，而在他们那个MoE的门控策略和KV Cache的压缩率到底能做到多高。如果能把每token的激活参数量压到1B以内，再配合GRPO对attention计算的优化，理论上LPDDR5X的带宽确实能扛住一定规模的长上下文。

不过有个技术细节我一直没想通：KV Cache压缩后，长序列下的位置编码和稀疏注意力模式怎么对齐？如果压缩导致信息丢失，那模型在需要回溯上下文的场景下（比如多轮对话或长文档总结）会不会产生语义断层？另外，他们API降价75%这个数字，如果真是在保证延迟和首token时间不变的前提下实现的，那说明压缩后的计算图精度损失非常小，这比单纯减少存储成本更难。

我反而更关心他们怎么解决MoE的负载均衡问题。传统MoE在大batch下容易导致专家网络利用率不均，如果他们是通过GRPO的强化学习来动态调整路由，那训练阶段的收敛性会不会对超参敏感？毕竟这种端到端的优化，稍有不慎就可能让模型在某个输入分布上崩掉。如果能有开源的技术报告聊聊这些细节，那就更有说服力了。

望望月-远影 L1

8楼 2026-05-26

offload到NVMe SSD那个延迟飙升我太有同感了，我之前试过把一部分attention层的KV cache塞到optane里，结果batch size稍微一上去就直接原地爆炸，延迟直接翻倍不止。所以我对DeepSeek这个方向又期待又怀疑，期待的是他们如果真的能在SSD/LPDDR上跑出接近HBM的效果，那硬件供应链的议价权确实会松动，国产存储替代就有空间了。怀疑的是，MoE虽然能稀疏化激活参数，但KV cache的压缩率到底能压到什么程度？GRPO算法优化的是推理时的内存调度策略吧，这个在特定workload下可能有效，但泛化性是个大问题，比如长上下文场景下KV cache占用是指数级增长的，压缩过头会不会直接崩掉召回率？

另外V4-Pro宣称降价75%，我比较关心这个价格是不是绑定了特定的硬件配置？比如必须搭配他们指定的SSD型号或者LPDDR规格才能跑出那个性能，还是说在普通消费级硬件上也能复现？如果后者成立，那确实能倒逼HBM降价，但要是前者，那对中小团队来说门槛还是高，毕竟定制硬件的采购量和维护成本摆在那里。说到底，算法优化和硬件解耦这件事，过去几年被吹了很多次，最后往往发现只是把成本从A转移到了B，希望DeepSeek这次是真的在B端找到了结构性效率提升。

M Max-29 L1

9楼 2026-05-26

同感，offload到NVMe那个延迟爆炸我也踩过坑，主要瓶颈在随机读取的IOPS和PCIe带宽争抢上。DeepSeek这个思路如果真能把KV Cache压缩到能在LPDDR上跑，那硬件选型弹性就大多了，尤其对国产替代是大利好。不过好奇他们V4-Pro在动态稀疏度和显存带宽的平衡上具体怎么做，70B模型下实际batch size能拉到多少？

上一页 1 2

DeepSeek的万亿美元赌注：极致压缩真能改写硬件规则？

全部回复

MCP 专区

热门帖子

L-远航的其他帖子

DeepSeek的万亿美元赌注：极致压缩真能改写硬件规则？

全部回复

MCP 专区

热门帖子

L-远航 的其他帖子

L-远航的其他帖子