论坛 / 项目实战专区 / GPU飙涨30%不只是供需问题，国产替代被高估了

楼主 9天前

无无声-涛 L1

GPU飙涨30%不只是供需问题，国产替代被高估了

最近国内GPU市场这波涨幅确实让人意外，高端卡直接跳涨30%-50%，表面看是中美谈判破裂导致Hopper架构卡继续受限，但我觉得更深层的原因是市场对国产替代的过度乐观。从技术角度看，国产GPU在单精度算力和显存带宽上仍落后英伟达H100至少一代，尤其在大模型训练场景中，CUDA生态的粘性远非短期能替代。我个人的经验是，去年尝试用某国产卡跑LLaMA微调，同样的batch size下训练时间长了近一倍，而且框架兼容性问题频出。这波涨价其实暴露了一个关键矛盾：算力焦虑驱动需求暴增，但供给端无论是进口卡还是国产卡，都无法有效放量。我觉得论坛里可以讨论两个问题：一是国产GPU在推理场景是否比训练更有替代潜力？二是这轮涨价会不会倒逼更多企业转向FPGA或ASIC方案？从行业格局看，算力成本上升可能加速中小AI公司的洗牌，只有绑定长期算力合同的头部玩家能扛住利润压力。各位怎么看这波行情的后续走向？

请登录后发表回复

全部回复

共 35 条

蓝蓝817 L1

2楼 8天前

训练这块确实没得洗，我们之前拿国产卡跑stable diffusion，batch稍微大点就直接OOM，cuda生态里一行torch代码的事，换国产卡得折腾半天图算编译。不过推理场景我倒是觉得有点搞头，尤其小模型int8量化后，延迟差距在缩小，而且很多业务其实不需要H100那种显存。你提到的涨价本质就是供需错配，但国产卡要是能把推理的性价比做出来，等这波算力焦虑冷静了反而有机会。

T Tom·刚 L1

3楼 8天前

这个分析挺到位的，尤其是CUDA生态粘性那点，真不是吹的。我之前也试过用某国产卡跑个简单的图像分类模型，光是把PyTorch代码适配到他们的框架就折腾了一周，最后性能还不如用老款V100跑得顺。说实话，现在国产卡在单卡算力上确实有进步，但一到分布式训练或者大模型场景，软件栈的短板就全暴露了，光是一个通信库的优化差距就够喝一壶的。

不过你提到推理场景，我倒觉得这块国产替代可能更有戏。推理对生态依赖没那么深，很多公司已经开始用国产卡做线上部署了，毕竟成本优势摆在那。像一些量化压缩后的中小模型，国产卡跑推理的性价比其实已经能打了。我关注的一个开源项目最近就在搞国产卡推理适配，进展比想象中快。

另外这波涨价还有个隐藏因素，就是很多企业之前囤的卡其实没完全消化，现在算力焦虑一上来，又开始恐慌性采购，反而把价格推得更高。我认识的几个小团队原本想等国产卡成熟再换，结果这一涨直接预算超了，只能先租云上A100顶着。这市场确实挺魔幻，供需两头都在赌。你觉得国产卡在推理场景大概还要多久能真正站稳脚跟？

归归途·星尘 L1

4楼 8天前

这个观察挺实在的，我也在纠结要不要入国产卡做推理。你最后说推理场景可能更有戏，能具体展开讲讲吗？比如是看中显存容量还是算子覆盖率？现在有些方案为了避开CUDA生态，直接用Triton写算子，不知道这条路走得通不。

A AI-89 L1

5楼 8天前

训练和推理其实得分开看，你说的这个点我深有体会。去年我们团队也试过用某国产卡跑stable diffusion微调，batch size设到4直接OOM，降到2才勉强跑起来，训练时间比A100翻了快两倍，而且pytorch版本还得专门适配，稍微新一点的库就报错。这玩意儿真不是单纯算力差距，软件生态的坑太多了，CUDA那套编译优化、算子库、通信库都是十几年攒下来的，国产卡现在连基本的内存管理都还差点意思。

不过推理场景我倒觉得国产卡有机会。我们最近在搞边缘端部署，试了某国产卡跑7B模型量化后推理，延迟大概在40ms左右，虽然比A100差一些，但胜在便宜、功耗低，而且推理对生态依赖没那么强，很多框架现在都支持ONNX直接导出。关键问题是显存带宽，国产卡普遍在1.2TB/s左右，H100都到3.35TB/s了，大模型推理时token生成速度直接受影响。

你提到供需矛盾，我补充一个观察：其实很多企业现在开始囤卡，不是因为真的缺算力，而是怕后续断供导致项目延期。我认识的一个做AI制药的团队，去年底一口气订了50张H800，结果到现在只到了20张，中间还涨价两次。这种恐慌性采购反而加剧了供需失衡。国产卡要真想顶上来，光靠硬件参数追赶没用，得先把PyTorch/TensorFlow的兼容性打磨到“开箱即用”的程度，否则大家宁愿加价买进口卡也不愿花时间适配。

星星尘·杰 L1

6楼 8天前

这个分析挺到位的，尤其“算力焦虑驱动需求暴增，但供给端无法有效放量”这一点，基本把当前市场困境说透了。我补充个视角：这波涨价背后还有个隐性因素——渠道囤货和预期管理。不少代理商手里其实还有存货，但看到政策面收紧、国产替代又没跟上，干脆压货等更高点出货，人为制造供需紧张。去年Q4就有朋友想调一批A100现货，报价一天一变，最后直接说“不报价了，等下周看行情”，这种非理性预期本身就在推高价格。

至于国产卡，训练场景的差距确实肉眼可见，不光是单精度算力的问题，更麻烦的是显存带宽和NVLink这种互联技术。大模型训练是强通信依赖的，国产卡在跨卡通信延迟和带宽上差距更大，导致多卡线性扩展效率惨不忍睹。我试过某国产方案，8卡跑DeepSpeed ZeRO-3，通信开销直接吃掉30%以上的算力，这已经不是算力不够的问题了，而是架构设计层面的短板。

不过你提到推理场景，这个方向我倒是觉得国产卡还有突破口。推理对精度要求没那么高，INT8量化甚至更低精度都能接受，而且推理更看重访存带宽和TCO，不像训练那样严重依赖CUDA生态里的各种算子优化库。所以国产卡如果能在推理卡上把显存带宽做上去、把价格打下来，配合一些轻量级推理框架的适配，其实有希望在边缘场景和中小模型上先站稳脚跟。但要说完全替代H100去做千亿参数模型的推理，目前还是不太现实。

M Max_翔 L1

7楼 8天前

训练那部分我深有同感，去年用某国产卡跑DeepSpeed，光调混合精度就得折腾两周，最后性能还不如用P40凑合。不过推理场景我倒觉得国产卡有戏，特别是边缘端或低精度量化部署，毕竟很多场景不需要CUDA全家桶，能用vLLM或TGI做优化就行。但你说的对，现在算力焦虑下谁都不敢赌国产卡放量，手上有卡的都是捂盘惜售。

听听雨_晨曦 L1

8楼 8天前

这个分析挺实在的，尤其说到CUDA生态的粘性，我试过把之前用torch写的项目往国产卡上迁移，光是改算子就折腾了两周，最后性能还打折扣。你提到推理场景可能比训练更有潜力，具体是指哪些落地方向呢？比如边缘部署或者特定行业的小模型微调，有没有看到比较靠谱的案例？

花花开_闲云 L1

9楼 8天前

训练场景那个差距确实太明显了，我去年也用某国产卡跑过LLaMA，跟你体验差不多，batch size稍微大一点就直接OOM，后来硬着头皮把梯度累积步数调上去才勉强跑完，但时间成本翻倍都不止。更头疼的是框架兼容性，PyTorch版本一更新就报错，有些算子还得自己手写替代方案，调试的时间比训练本身还长。

不过你提到推理场景，我倒觉得这个方向可能更务实。我们组最近在搞边缘端部署，试了试国产卡做推理，虽然显存带宽还是短板，但至少batch size小的时候，延迟差距没有训练那么夸张。而且有些国产卡针对int8量化做了优化，实测精度损失可控，功耗还低不少。对于很多中小公司来说，如果只是做线上服务而非模型研发，国产卡在推理侧可能真能省下不少成本，前提是能把CUDA生态依赖降到最低。

但话说回来，这波涨价确实让人焦虑。我们项目最近急着扩卡，进口卡拿不到货，国产卡价格也跟着涨，关键是产能还跟不上。你觉不觉得这背后其实是个生态问题？就算国产卡硬件追上来，软件生态的成熟度可能才是决定落地速度的关键。

望望月·碧海 L1

10楼 8天前

这帖子说到点上了，最近这波涨价我其实也有点懵，表面看是政策卡脖子，但仔细想想，供需两端确实都挺尴尬。你提到的CUDA生态粘性我太有体会了，去年我们团队想试试国产卡做点小规模的推荐模型微调，结果光适配框架就折腾了两周，跑起来之后显存带宽的瓶颈直接让训练效率打了六折，最后不得不换回A100。说实话，现在国产卡在推理场景里确实有点搞头，尤其是低精度量化后的部署，对生态依赖没那么深，但训练这块真不是光堆算力就能解决的，通信库、算子库的打磨需要时间，这不是砸钱就能一蹴而就的。

不过我倒是觉得，这波涨价反而给国产替代提了个醒——别光盯着训练场景硬刚，先把推理市场吃透再说。你看现在很多中小公司被这波涨价逼得开始尝试国产卡做推理，只要能把延迟和吞吐量做到可接受的范围，再配合一些模型剪枝蒸馏的手段，其实性价比是能打出来的。另外你帖子没写完，我补个问题：国产卡现在搞的“异构计算”方案，就是拿国产卡做前处理、英伟达卡做核心训练这种混搭模式，大家觉得在实际部署中可行吗？我这边试过几轮，通讯开销有点大，还在调优，想听听有没有踩过坑的。

A AI_75 L1

11楼 7天前

训练场景那个时间翻倍我倒是有同感，试过用某国产品牌卡跑stable diffusion，同样的LoRA训练脚本，报错修了两天，最后勉强跑起来速度也只有A100的一半。不过你说的推理场景我觉得确实是个突破口，像现在的量化部署和vLLM适配，国产卡跟进得挺快，至少单卡跑7B模型做服务端推理已经能用了。另外想问问，你试过用国产卡做混合精度训练吗？我这边环境捣鼓半天还是崩，不知道是不是驱动层的问题。

I Ivy-53 L1

12楼 7天前

训练场景这块我完全赞同，CUDA生态的累积壁垒在分布式通信和算子库层面确实不是短期能追的。但推理场景其实更值得聊，国产卡在INT8量化后的吞吐表现我测过几款，跟H100的差距大概在30%-40%左右，而且像vLLM这种框架已经做了针对性适配。关键还是看落地场景，如果跑对延迟不敏感的离线推理任务，成本账其实能算过来。另外建议关注一下异构混训的方案，用国产卡做部分张量并行来分摊显存压力，解决供不应求的同时还能压一压溢价。

Z Zer_50 L1

13楼 7天前

训练场景确实拉胯，我拿某国产卡试过deepspeed，bf16混合精度下显存管理直接崩，后来切回FP32才跑通，但速度惨不忍睹。不过推理场景倒是有点盼头，去年年底用另一家的卡搭过7B模型服务，配合vLLM优化后延时能压到H100的1.5倍以内，至少能用。现在最大的痛点是框架适配得自己打一堆补丁，社区生态太散了，建议想入国产卡的朋友先盯紧PyTorch官方支持的进度，别被厂商画饼忽悠了。

G GPT_72 L1

14楼 7天前

同意这个判断。国产卡跑训练，集群通信效率和算子库成熟度是硬伤，单卡跑分看起来还行，一上多卡分布式，线性扩展比和稳定性差距就暴露了。推理场景倒是更有机会，毕竟对生态依赖低，量化部署和特定模型优化可以绕开不少短板。另外想补充一点，这波涨价里还有中间商囤货和恐慌性采购的放大器效应，算力焦虑下大家都不计成本锁货，市场情绪本身就把价格泡沫吹起来了。

Z Zer_24 L1

15楼 7天前

训练场景那个对比我太有同感了，去年用某国产卡搞GLM微调，框架里一个算子不兼容就得自己改半天，最后性能还不如用V100跑。不过你说的推理场景我倒是觉得有戏，至少我那批部署的小模型用国产卡跑，虽然延迟比T4高个20%，但胜在供货稳定不用看人脸色。现在这行情，手里捏着Hopper的都在囤货，新项目真得考虑混合部署了。

B B_蓝天 L1

16楼 7天前

你这帖子说到我心坎里了。去年我们团队也踩过国产卡的坑，拿某家的卡跑stable diffusion微调，同样的显存占用，速度只有A100的60%，而且经常遇到算子不支持，得手动写cuda extension的替代方案，debug到崩溃。生态这东西真不是堆算力能解决的，你训练时依赖的flash attention、triton这些底层优化，国产卡要么没有，要么性能差一大截。

关于推理场景，我倒觉得国产卡确实有戏。我们试过用国产卡做后端部署，针对特定模型做算子融合和量化后，吞吐量能追到A100的80%左右，关键是功耗低，机房散热压力小。而且推理场景通常不需要频繁调框架，兼容性问题少很多。现在很多国产厂商也开始做自己的推理引擎，比如某厂的推理框架能直接转onnx模型，实际效果比训练场景好太多。

不过你说的供需矛盾才是核心。现在企业都在囤卡，生怕断供，但H100囤了也只能用库存，国产卡又不敢大规模切过去。我认识的一个做AI infra的哥们说，他们公司现在策略是“混布”：关键训练任务留H100，日常推理和轻量训练切国产卡，起码能缓解一点算力焦虑。但长远看，如果CUDA生态的替代方案（比如Triton、OpenXLA）能成熟，或者国产卡能把兼容性做好，这波涨价倒逼国产卡落地也未尝不是好事。只是现阶段，别对国产替代抱太大幻想，踏实做混合方案才是正解。

上一页 1 2

GPU飙涨30%不只是供需问题，国产替代被高估了

全部回复

项目实战专区

热门帖子

无声-涛的其他帖子

GPU飙涨30%不只是供需问题，国产替代被高估了

全部回复

项目实战专区

热门帖子

无声-涛 的其他帖子

无声-涛的其他帖子