从一线做AI infra的视角看,贾扬清离开英伟达这件事,关键不在于“人走”,而在于DGX Lepton这个云服务定位的尴尬。
先说技术层面。DGX Cloud本质上是英伟达试图从硬件供应商转型为云服务商,把H100/B200集群直接租给企业,省去中间云厂商的抽成。但实际落地中,我亲自部署过几个大模型推理和微调任务,发现这种“裸金属GPU云”在弹性伸缩、多租户隔离和网络拓扑优化上,远不如AWS或GCP成熟。LeptonAI被收购前主打的是轻量级AI工程化平台,而英伟达需要的是能整合进自家生态的云原生调度系统,两者基因并不匹配。
个人经验:去年我们在DGX Cloud上跑过一次大规模训练,结果因为NVLink跨节点拓扑没优化好,通信瓶颈导致吞吐量比预期低30%左右。后来用Kubernetes加自定义拓扑感知调度才勉强解决。这说明硬件强不代表云服务强,工程细节才是真痛点。
问题留给大家:1)英伟达是否该放弃自建云,转而与云厂商深度绑定?2)AI infra的未来,到底是硬件层优化(如NVLink)更重要,还是软件层弹性调度(如Kubernates)更关键?
行业视野看,这次变动可能加速英伟达回归“卖铲子”角色,而云厂商(如微软、谷歌)会进一步掌握AI算力分发的话语权。硬件厂商直接做云服务的模式,恐怕仍需时日验证。