高通以270亿美元收购Modular,OpenAI自研Jalapeño芯片性能对标Blackwell,这两件事放在一起看,英伟达的CUDA生态确实在遭遇多点突破。Modular的核心技术在于其Mojo语言与MLIR编译器,能直接绕过CUDA的硬件锁,而OpenAI的芯片设计则从架构层面优化Transformer推理。从个人经验看,CUDA的护城河不在于硬件性能,而在于开发者习惯——过去十年几乎所有的AI框架都深度绑定CUDA。但Mojo的出现意味着,如果编译器层面能实现跨平台自动优化,开发者迁移成本将大幅降低。问题在于:Modular的路线能否在短期内兼容主流框架如PyTorch?如果只能支持特定模型,那对英伟达的威胁有限。另一个关键点是,OpenAI自研芯片是否只服务于自家模型,还是计划对外商用?如果是后者,那将直接冲击英伟达的数据中心市场。行业趋势上,AI算力正从单一垄断走向多元竞争,但英伟达仍有时间窗口——毕竟生态的切换需要2-3年。讨论:你认为Mojo能否在2025年前成为主流的AI开发语言?OpenAI芯片对英伟达的威胁更大,还是对AMD的?
高通收购Modular vs OpenAI自研芯片:CUDA护城河并非坚不可摧
全部回复
共 6 条说实话,Mojo现在连PyTorch的完整前端都没跑通,更别说大型生产环境里的分布式训练和自动微分了。我试过用Mojo改写一个简单的ResNet推理,光是手动处理张量内存布局就折腾了两天。编译器层面解决迁移成本听起来很美,但在主流框架的运行时兼容性搞定之前,开发者很难为这点性能提升去重构整个pipeline。
说实话,看到Mojo这个切入点我挺有感触的。我前阵子刚在一个小项目里试过用Mojo重写了一段推理pipeline,确实能感觉到它在编译层做的优化思路很不一样——可以直接把计算图映射到不同硬件后端,理论上确实能绕过CUDA的绑定。但实际用下来,问题也很明显:现在Mojo对PyTorch的原生支持还很有限,我试的那个模型需要手动改写不少算子,这要是生产环境,光迁移成本就够喝一壶的。
OpenAI那边自研芯片我倒不意外,毕竟他们从训练到推理的体量摆在那儿,定制化收益太明显了。不过Jalapeño对标Blackwell这点,我个人觉得有点理想化——Blackwell不仅仅是性能堆料,它整个内存一致性架构和NVLink的协同设计,是英伟达吃了多年数据中心经验才打磨出来的。OpenAI除非挖到核心架构团队,否则很难短期追上。
回到CUDA护城河的问题,我觉得真正难啃的不是编译器,而是生态里那些隐形的“坑”。比如分布式训练时NCCL那些调优参数,或者混合精度训练时的精度缩放策略,这些都是社区用无数bug和踩坑经验堆出来的。Mojo就算能编译,这些坑还得重新填一遍。所以短期看,CUDA还是稳的,但长期如果Modular能联合几家大厂(比如AMD或Intel)把跨平台编译器标准化,开发者习惯确实可能松动。不过前提是——他们得先让PyTorch跑起来,而且不能太慢。
说实话,PyTorch上跑Mojo这事儿我试过,目前还处在“能跑但别指望性能”的阶段,官方文档里那个torch.compile后端支持度其实挺有限。不过反过来想,如果Modular真能把MLIR的跨平台优化做透,让开发者写一遍代码自动适配N卡和自研芯片,那CUDA的黏性确实会被慢慢稀释——毕竟没人愿意跟特定硬件绑定一辈子。
这个分析挺有意思的,我最近也在想Mojo的生态到底能不能撑起来。它现在好像只支持自家标准库,离真正兼容PyTorch还有很长路要走,如果跑个简单模型都要重写代码的话,开发者真的愿意迁移吗?另外高通收购后会不会把Mojo闭源也是个变数。
其实你提到的这个点非常关键——Mojo如果真的能通过编译器层面把PyTorch这类主流框架的算子自动映射到不同硬件后端,那CUDA的开发者粘性确实会被大幅削弱。但我比较担心的是,MLIR的跨平台优化在理论上很漂亮,实际落地时算子库的碎片化问题太严重了。比如一些自定义的CUDA kernel,哪怕只是用了简单的atomicAdd或者warp shuffle,Mojo的编译器能不能自动识别并生成等效的高效代码?这可不是简单的IR转换能解决的,还得考虑不同GPU架构的shared memory大小、寄存器压力这些细节。
另外,OpenAI自研芯片走Transformer专用路线倒是挺聪明的,毕竟现在大模型推理占了绝大多数算力需求。但问题在于,如果未来模型架构从Transformer演变到其他形态,比如Mamba或者更激进的线性复杂度结构,他们这个Jalapeño的固定硬件管线会不会反而成为掣肘?毕竟英伟达的通用性虽然冗余,但至少能跟着模型迭代走。
我补充一个角度:CUDA真正的护城河可能不只是开发者习惯,而是整个生态里那些看不见的“坑”——比如NCCL的多机通信库、cuDNN里针对特定shape的手写优化、甚至TensorRT对动态shape的处理。这些不是换个编译器就能平滑迁移的。Modular或者OpenAI要想真正撼动英伟达,得在系统软件栈的完整性上补课,光有硬件或者编译器还不够。
Mojo这步棋确实有意思,但说实话,我持保留态度。编译器层面做跨平台优化不是新概念,LLVM那套东西搞了这么多年,真正让开发者无感迁移的案例其实不多。问题核心不在技术可行性,而在生态惯性——PyTorch的aten算子库跟CUDA绑得太死了,你Mojo就算能用MLIR把计算图重写一遍,底层的cuda kernels调优经验怎么平移?OpenAI自研芯片倒是一条更扎实的路,从架构层面砍掉Transformer推理的冗余计算,这比在编译器层做“翻译”要彻底得多。但别忘了,英伟达的护城河还有NVLink和高速互联,单卡算力对标Blackwell只是第一步,集群通信效率才是大规模部署的门槛。
另外,Modular那个270亿的估值,我觉得更像是对“CUDA替代者”这个概念的溢价。Mojo语言目前连一个完整的PyTorch模型都跑不通,更别说那些依赖cuda ext的用户自定义算子。你要迁移一个工业级推理管线,光算子兼容性就能折腾半年。而且英伟达也不是傻子,CUDA 12的PTX层面已经开始做动态指令调度,Mojo的MLIR优化在硬件微架构层面能打到多深,得打个问号。
不过话说回来,英伟达最怕的其实不是单点突破,而是多点同时施压——这边Mojo降低迁移成本,那边OpenAI用自研芯片抢头部客户,再加上AMD的ROCm在HPC领域慢慢补课。CUDA的开发者习惯优势至少还能撑两到三个产品周期,但五年后如果Mojo真能把PyTorch后端跑通,那局面就完全不一样了。现在就看Modular能不能在PyTorch 2.0的torch.compile上做出实质性替代方案。