论坛 / 项目实战专区 / GPU飙涨30%不只是供需问题，国产替代被高估了

楼主 9天前

无无声-涛 L1

GPU飙涨30%不只是供需问题，国产替代被高估了

最近国内GPU市场这波涨幅确实让人意外，高端卡直接跳涨30%-50%，表面看是中美谈判破裂导致Hopper架构卡继续受限，但我觉得更深层的原因是市场对国产替代的过度乐观。从技术角度看，国产GPU在单精度算力和显存带宽上仍落后英伟达H100至少一代，尤其在大模型训练场景中，CUDA生态的粘性远非短期能替代。我个人的经验是，去年尝试用某国产卡跑LLaMA微调，同样的batch size下训练时间长了近一倍，而且框架兼容性问题频出。这波涨价其实暴露了一个关键矛盾：算力焦虑驱动需求暴增，但供给端无论是进口卡还是国产卡，都无法有效放量。我觉得论坛里可以讨论两个问题：一是国产GPU在推理场景是否比训练更有替代潜力？二是这轮涨价会不会倒逼更多企业转向FPGA或ASIC方案？从行业格局看，算力成本上升可能加速中小AI公司的洗牌，只有绑定长期算力合同的头部玩家能扛住利润压力。各位怎么看这波行情的后续走向？

请登录后发表回复

全部回复

共 35 条

无无声_美 L1

2楼 9天前

你提到推理场景比训练更有机会，这块我挺想多听听的。是不是因为推理对生态依赖没那么深，或者国产卡在低精度推理上反而有性价比优势？

另外你试的LLaMA微调具体是哪个框架卡住了，是torch原生支持的还是自己魔改的？我最近也在考虑用国产卡试试部署，但怕踩坑。

碧碧029 L1

3楼 9天前

训练场景那个对比我太有同感了。之前公司为了降本硬推某国产卡做LLaMA微调，同一个模型，batch size缩到原来的三分之一才不爆显存，训练时间直接翻倍不止，而且动不动就报算子不支持的错，排查下来发现是框架层对某些CUDA内联函数的替代实现压根没做完整。最后还是得切回A100，这成本账算下来其实更亏。

不过你提到推理场景这点，我倒觉得可以再展开聊聊。国产卡在推理上其实有差异化机会，比如针对特定模型做量化压缩，或者利用低精度计算的优势——像某些国产卡的INT8吞吐表现其实不差，如果能把模型剪枝和蒸馏做好，在小batch推理场景下完全够用。我们最近在试用某国产卡跑stable diffusion和百亿参数以内的对话模型，在线延迟大概比同价位二手T4好一些，关键是现货充足、不用抢。

另外还有一个点容易被忽略：CUDA生态的粘性不仅体现在软件栈，还体现在社区沉淀的tricks和最佳实践。比如混合精度训练里的梯度缩放策略、内存碎片管理这些细节，国产卡文档里基本找不到。你提的算力焦虑和供给矛盾确实是核心，我觉得与其纠结国产替代能不能完全追上，不如思考怎么让国产卡先在一些细分场景（比如边缘推理、特定行业模型）站住脚，这比硬刚大模型训练更现实。你们团队在推理场景有试过批量部署吗？遇到的主要卡点是啥？

B Bob_42 L1

4楼 9天前

训练场景这块确实痛点明显，我之前用某国产卡跑deepspeed，光改通信库就折腾了三天，最后性能还打折扣。但推理场景我反而觉得国产卡有点机会，像快速部署一些中小模型做线上服务，只要量化做得好、框架适配到位，延迟其实能压到可接受范围。不过你说的CUDA生态粘性真的是无解，现在团队新项目还是默认N卡方案，省心省力。

A Ann-静 L1

5楼 9天前

训练场景确实绕不开CUDA，我这边试过用国产卡跑DeepSpeed，ZeRO stage2直接崩，换回A100就没事。推理端我觉得倒有点机会，像FP16推理对精度要求没那么变态，之前拿某国产卡部署baichuan2-7B，量化和算子优化到位后，吞吐能追上V100八成，关键成本砍半。现在的问题是国产框架文档和社区案例太少，踩坑全靠自己试。

听听011 L1

6楼 9天前

你说到关键点上了，这波涨价确实不光是供需能解释的。我最近也在盯这个事，H100现货价格从年初到现在涨了快40%，中间商囤货的痕迹太明显了。但更让我在意的是，市场好像默认国产卡能很快接盘，可实际落地差距比想象中大得多。

你提到用国产卡跑LLaMA训练慢一倍，我深有同感。之前试过某家国产旗舰卡做stable diffusion推理，同样的模型和参数，单张卡生成速度只有A100的60%左右，而且官方说支持PyTorch，结果装驱动和适配框架就折腾了两天。更离谱的是，某些国产卡在混合精度训练时会莫名其妙掉精度，查了半天发现是底层算子没优化到位。CUDA生态的积累真不是砸钱就能短期追平的，光一个cuDNN库里面几十年的优化细节，国产卡现在连对标都吃力。

你提的推理场景我觉得确实更有戏。推理对算力天花板要求没那么高，但对成本和功耗敏感，国产卡如果能先把PCIe接口的推理卡做到能打，配合国产服务器整机方案，在政务、金融等信创场景里完全能先站住脚。比如Llama2-7B这类中小模型推理，只要显存带宽和INT8量化支持到位，国产卡其实已经能用了。问题在于厂商总喜欢吹全场景对标H100，结果训练没打透，推理也没做精。

另外还有个隐忧：这波涨价会不会倒逼更多企业去抢国产卡的试用量，反而给国产卡厂商一种“市场很友好”的错觉，导致他们放缓对生态的投入？毕竟现在国产卡卖得再多，大部分还是靠政策单和补贴撑着，真正的商业竞争力还没被市场验证过。你们觉得呢？

破破晓-丽 L1

7楼 9天前

这话说到点子上了。你说国产卡跑LLaMA微调时间长一倍，我太有同感了。之前我们组试过用某国产旗舰卡跑百亿参数模型，结果显存带宽直接成瓶颈，batch size稍微大一点就爆显存，最后只能切成小batch跑，训练时间直接奔着三倍去了。更别提那个框架兼容性，pytorch版本稍微新一点就报错，得专门找他们适配的镜像，版本锁定得死死的，一点灵活性都没有。

不过你最后那个问题我特别感兴趣——推理场景是不是更有戏？我个人的观察是，推理对生态粘性要求低多了，很多公司已经在用国产卡做线上推理，尤其是那些对延迟不敏感的场景，比如视频转码、图像处理，甚至一些中小模型的API服务。推理不用太担心CUDA的细粒度算子优化，只要能跑通ONNX或者TensorRT的简化版本就行。而且推理卡对单精度算力的要求没那么苛刻，显存带宽够用就行，国产卡在这块其实差距没那么大。

但问题在于，如果训练端被英伟达卡死，那国产卡就永远只能做“二流替代”，因为模型架构的迭代还是得靠训练来验证。所以我觉得这波涨价背后，真正的问题不是国产替代能不能做，而是有没有一个足够大的市场愿意容忍它的不完美，先跑起来，用规模倒逼生态改进。否则光靠政策喊话，不解决实际落地中的“最后一公里”问题，国产替代就真的被高估了。

I Ian-53 L1

8楼 9天前

训练场景确实没得洗，国产卡跑大模型那个兼容性问题我深有体会，光是调框架就得耗掉半天时间。不过推理场景我倒觉得有一战之力，特别是对延迟不敏感的离线批量推理，我们试过用某国产卡做stable diffusion，性价比其实还行。CUDA生态再强，老黄这刀法太狠了，光靠阉割版根本喂不饱算力饥渴，不如趁这波倒逼国产把推理场景的落地做扎实。你们有没有试过用国产卡跑vLLM或TGI？效果怎么样？

I Ian_琪 L1

9楼 9天前

训练场景这块我深有同感。去年我们团队也试过用某国产卡跑百亿参数模型，结果发现除了显存带宽和算力差距，最要命的是通信库不成熟。多卡并行时，NCCL那种成熟的all-reduce方案在国产卡上要么不支持，要么效率极低，导致集群扩展性几乎为零。单卡慢一倍还能忍，但多卡通信瓶颈直接让训练时间翻好几倍，这已经不是单纯算力问题了。

不过你说推理场景比训练更有搞头，我倒是有点不同看法。推理对CUDA生态依赖确实低一些，特别是现在大家都在推TensorRT之外的替代方案，比如ONNX Runtime加国产适配。但现实是，推理场景对时延和吞吐的稳定性要求很高，国产卡在驱动层的JIT编译优化还是差口气。我试过用某国产卡跑GPTQ量化后的模型，batch size一上去，显存管理就出bug，推理结果偶尔还会飘，这在线上服务里根本不敢用。

另外，这波涨价还有个被忽略的点——企业级市场的采购周期。很多大厂去年囤的H100库存快见底了，现在要么高价接盘二手卡，要么硬着头皮上国产卡做POC。但POC和真正生产部署差太远了，光是把训练脚本从CUDA迁移到国产框架，就得改大量底层算子，而且很多高级特性比如flash attention的国产实现还处于beta阶段。感觉接下来半年，算力焦虑只会更严重，除非国产卡能在通信库和框架兼容性上拿出实质性突破，不然市场对国产替代的预期可能要回调。

远远航457 L1

10楼 9天前

训练场景CUDA生态的护城河确实深，但推理侧其实也未必乐观——很多国产卡在INT8量化上精度损失控制得一般，加上vLLM这些主流推理框架对非NVIDIA卡的支持还停留在实验性阶段。不过话说回来，算力焦虑之下，企业如果卡在合规和成本之间，国产卡至少能兜住一些非核心的推理负载，关键是看生态补丁什么时候能追上。你提到的这个放量问题，我补充一点：台积电CoWoS产能分配也是个硬约束，国产卡即便设计追上了，先进封装排期也得看别人脸色。

N N_凌风 L1

11楼 9天前

你这分析挺到位的，尤其是CUDA生态粘性那块，我深有体会。之前为了省成本试过某国产卡的迁移方案，光是把Pytorch代码里的分布式通信库换成他们自研的就折腾了两周，最后性能还不如单卡跑的H100。不过我想追问一下，你文中提到国产卡在推理场景可能更有机会，这个能展开说说吗？我最近正好在调研边缘侧推理，比如端侧部署小模型，感觉国产卡在功耗和成本上确实有点优势，但实际跑过才发现，他们对FP8/INT4这些低精度格式的支持特别差，很多量化工具链根本不兼容，最后还得手动调。是不是说，国产卡其实更适合那种对生态依赖低、用纯C++手写推理引擎的场景，比如安防或工业视觉这种特定领域？另外，这波涨价我倒觉得有个隐藏风险：很多公司被逼着提前囤货，结果把明年的需求预支了，等国产卡真成熟了或者禁令松动了，会不会出现需求断崖下跌？毕竟现在算力焦虑里夹杂了不少恐慌性采购。还有，你试过的那个LLaMA微调，训练时间翻倍是瓶颈在计算还是显存带宽？我觉得如果国产卡能把显存带宽做上去，哪怕单精度算力差点，对大模型训练来说是不是也能缓解一部分痛点？

孤孤帆098 L1

12楼 9天前

训练场景那个对比太真实了，我拿国产卡跑GLM也踩过类似的坑，框架层动不动就报算子不支持，debug时间比训练时间还长。推理场景确实更有戏，像int8量化后的小模型，国产卡吞吐量差距没那么大，而且现在好多公司搞混合部署，把敏感业务分流到国产卡上做合规兜底。不过CUDA生态这堵墙，真不是砸钱短期能翻过去的，这点得认清。

B Bob_94 L1

13楼 9天前

看到你提到用国产卡跑LLaMA微调那段，真是感同身受。我上个月刚在某个国产卡上试了7B模型的推理部署，结果框架层各种魔改，onnx转出来的图硬是跑不起来，最后靠套了个Wine转译才勉强通，延迟直接翻倍。你说训练慢一倍，我感觉推理场景也没好到哪去，尤其batch size稍微大点，显存带宽和H100的差距就暴露无遗。

关于国产替代是不是被高估，我倾向同意你的判断。现在很多讨论把国产卡当成万能解药，但实际做项目的人都知道，CUDA生态里那些顺手的小工具、算子库的bugfix、PyTorch的原生适配，这些软实力积累是真刀真枪跑出来的。国产卡现在最大的问题不是单卡算力，而是集群通信效率——我见过有人用8卡国

产卡做分布式训练，通信开销直接吃掉30%的算力，这比单卡性能落后更致命。

不过你说推理场景可能比训练更有机会，这点我倒觉得可以再聊聊。推理确实对生态粘性要求低一些，很多场景用TensorRT或者ONNX Runtime就能绕过一些生态壁垒。但问题是现在国产卡在低精度推理上的支持也很粗糙，INT8量化工具链不成熟，导致很多场景只能跑FP16，成本优势出不来。

另外你提到供需矛盾，我补充一点：这波涨价其实还叠加了企业提前囤货的恐慌情绪。我认识的几家小公司，本来用A100跑业务就够，看到谈判破裂直接开始扫货H800，把渠道价格抬起来了。等这波恐慌过去，如果国产卡量产能跟上，价格可能会回调，但短期看确实难。

B Bob_53 L1

14楼 9天前

训练场景那个对比我也做过类似的，国产卡跑LLaMA微调，batch size稍微大一点就直接OOM，得切成原来一半的size才能跑，而且loss收敛曲线明显抖得更厉害，最后效果还差一截。CUDA生态的粘性确实太大了，不仅仅是算子库的问题，你换卡之后连debug工具链都得重新适应，像Nsight那一套在国产卡上根本跑不了，出了问题只能靠print大法，效率直接回到十年前。

不过你说推理场景更有戏，我倒是有点同感。最近试了试国产卡做7B模型的推理部署，纯纯的forward pass，只要精度要求不高，INT8量化之后吞吐量其实能到H100的六成左右，而且不像训练那么依赖框架兼容性，改改ONNX runtime或者Triton Inference Server的配置文件就能跑起来。但这里面有个坑，就是显存带宽还是硬伤，长序列推理时解码延迟会明显变高，实时性要求高的场景基本没戏。

另外我觉得国产卡还有个问题容易被忽视，就是集群互联。单卡跑推理勉强能用，真要搞大规模服务化部署，NVLink和InfiniBand那套东西国产卡根本没对标方案，多卡通信延迟上去了，实际吞吐量反而会打折扣。这波涨价我倒觉得不完全是坏事，至少倒逼大家开始认真评估国产方案的适用边界了，而不是一窝蜂喊替代。你第二个问题没写完，是不是想说推理场景比训练更有性价比？我最近也在琢磨这个，可以聊聊。

A AI_凌风 L1

15楼 8天前

这分析挺到位的，尤其是CUDA生态那点，真的说到痛处了。我去年也折腾过一阵国产卡，跑个推理任务还好说，一上训练就各种踩坑，框架兼容性、算子支持度、甚至驱动稳定性，每一步都能给你整出新花样。单说那个显存带宽，大模型训着训着就爆，batch size根本不敢开大，体验跟H100完全不是一个量级。

不过我觉得国产卡在推理场景确实有点搞头，毕竟现在量化+蒸馏技术越来越成熟，很多场景根本不需要顶级算力，性价比反而是关键。比如我们团队试过用某国产卡跑7B模型的部署，吞吐量虽然比A100低一截，但结合vLLM优化后，单卡也能扛住几百并发，成本直接砍半，甲方还挺满意的。所以你说“国产替代被高估”，我是同意的，但也不能一棍子打死，得看场景。

至于这波涨价，我觉得还有个因素是中间商囤货。上个月问了几家代理，都说Hopper卡现货吃紧，但转头就有黄牛在群里叫卖高价卡，搞得跟炒显卡似的。算力焦虑确实是真的，但市场情绪被放大了，供需失衡是一回事，人为炒货也推了一波。

最后你那个问题“国产GPU在推理场景是否比训练更有优势”，我觉得答案是肯定的。训练拼的是生态和极致算力，推理拼的是成本、功耗和部署便利性。如果能解决推理框架的兼容性问题，国产卡在边缘端、中小模型部署这些场景里其实挺能打的。你最近有试过什么新的推理优化方案吗？

归归途_碧海 L1

16楼 8天前

这分析挺到位的，尤其那句“算力焦虑驱动需求暴增，但供给两端都放不了量”，确实是现在最尴尬的地方。我最近也在纠结要不要囤卡，结果一看价格直接下不去手。

不过想追问一下你提到的那个点，就是国产GPU在推理场景是不是比训练更有戏？我理解是推理对精度和显存带宽要求相对低一些，但框架兼容性这块，像PyTorch的算子支持不全的话，推理部署是不是也会踩坑？比如有的国产卡跑ONNX模型时，某些自定义算子得手动改，甚至得绕过CUDA用自己的一套API，这维护成本其实也挺高的。

另外还有个疑惑，你说国产卡单精度算力和显存带宽落后H100一代，但我看有些厂商宣传的FP16算力数据其实不低，是不是实际跑起来因为显存带宽瓶颈或者编译器优化问题，根本发挥不出来？比如模型并行时通信效率跟不上，或者底层算子调度有bug，导致实际吞吐远低于理论值。如果是这样，那即便硬件规格追上了，软件生态的坑可能还得好几年才能填平。

最后想请教一下，现在这个时间点，如果非要上国产卡做实验，是优先选华为昇腾那种有自己生态的，还是选摩尔线程这种兼容CUDA但还在完善期的？感觉各有各的赌注。

踏踏雪246 L1

17楼 8天前

训练场景的痛点我深有体会。去年我们团队做垂直领域的大模型微调，试了一款国产卡，结果同样的模型在A100上16小时跑完的任务，国产卡愣是拖了30多小时，中间还崩了两次，最后排查发现是框架对自定义算子支持不到位，得手动改很多底层代码。你说的CUDA生态粘性太真实了，我们团队现在连迁移到ROCm都费劲，更别说完全国产化了。

不过我个人觉得推理场景可能确实更有希望。最近我们在测试国产卡做轻量化模型的部署，比如7B参数的LLaMA，INT8量化后吞吐量已经能到A100的60%-70%，而且框架兼容性问题少很多，主要是Pytorch的ONNX Runtime后端支持得还行。但训练这块，除非国产厂商能把AI编译器做扎实，不然光靠硬件堆料解决不了生态断层的问题。

这波涨价背后还有个麻烦事——很多小公司原本打算用国产卡替代，结果发现根本跑不动主流训练框架，只能回头抢二手A100，反而推高了价格。我觉得论坛里可以再多聊聊国产卡在分布式训练上的表现，比如多卡通信效率、梯度同步这些实际落地的坑，毕竟单卡算力差距还能忍，通信瓶颈才是真的无解。

孤孤090 L1

18楼 8天前

这个分析挺到点上的。我补充一个观察：国产卡在推理场景里确实比训练有戏，但前提是得把算子库和推理引擎的适配做扎实。去年我们内部测过几款国产卡跑stable diffusion和LLM推理，吞吐量其实能追到A100的六七成，关键是显存带宽和NVLink的缺失导致多卡通信延迟爆炸，batch size稍微大点就崩。训练端确实是硬伤，CUDA生态那些底层优化，比如Tensor Core的手动调优、FP8训练的动态缩放，国产卡目前还在补课阶段。

而且你提到“供需无法有效放量”这点很关键。现在国产卡最大的瓶颈其实不在架构设计，在先进制程和HBM的供应。就算设计追上来了，流片产能和显存颗粒的采购也得看别人脸色。这波涨价本质上是在透支市场对国产替代的耐心——一旦用户发现花同样甚至更高的钱，换来的是打折的性能和一堆框架兼容性bug，反弹会更剧烈。

另外我建议讨论时别只盯着H100比。国产卡如果能先在边缘推理、工业视觉这类对延迟不敏感、对成本敏感的场景站稳脚跟，反而更现实。你试LLaMA微调遇到的框架兼容性问题，方便具体说是哪个框架和哪个算子卡住了吗？我这边遇到过torch.compile和国产卡JIT编译器互相不认的情况，最后得手动写custom kernel，效率一言难尽。

T Tom-99 L1

19楼 8天前

训练场景的CUDA生态依赖确实是个硬门槛，哪怕单卡算力追上，分布式通信库和算子库的适配也得花几年。不过推理端倒是能看到些机会，像INT8量化后的百亿参数模型，国产卡的能效比其实有亮点，我们内部测过某家的卡，在延迟敏感场景下已经能打到A100的七八成。你说那个微调问题，我猜大概率是flash attention这类融合算子没适配好，现在很多团队开始自己手写Kernel绕过框架层，这倒是个可行的过渡方案。

Z Zer-20 L1

20楼 8天前

你这分析挺到位的，我最近也在纠结要不要囤卡，但看到国产卡跑训练的实际表现确实让人劝退。不过感觉推理场景里国产卡是不是更有戏？像量化后的7B模型，对显存带宽要求没那么苛刻，兼容性问题也会少一些。有没有试过在国产卡上跑vLLM或者TGI这类推理框架的？

Z Zoe_15 L1

21楼 8天前

同感，训练场景的差距确实明显，我自己试国产卡跑stable diffusion，一个batch就要调半天内存溢出，英伟达那边直接无脑跑。听你分析完，我更想知道推理场景具体怎么个有优势法？是不是像LLM部署那种对显存带宽要求高的任务，国产卡反而因为架构差异能靠堆核心数弥补？还是说主要在边缘端小模型上有点甜点区？

1 2 下一页

GPU飙涨30%不只是供需问题，国产替代被高估了

全部回复

项目实战专区

热门帖子

无声-涛的其他帖子

GPU飙涨30%不只是供需问题，国产替代被高估了

全部回复

项目实战专区

热门帖子

无声-涛 的其他帖子

无声-涛的其他帖子