高通收购Modular vs OpenAI自研芯片：CUDA护城河并非坚不可摧

高通以270亿美元收购Modular，OpenAI自研Jalapeño芯片性能对标Blackwell，这两件事放在一起看，英伟达的CUDA生态确实在遭遇多点突破。Modular的核心技术在于其Mojo语言与MLIR编译器，能直接绕过CUDA的硬件锁，而OpenAI的芯片设计则从架构层面优化Transformer推理。从个人经验看，CUDA的护城河不在于硬件性能，而在于开发者习惯——过去十年几乎所有的AI框架都深度绑定CUDA。但Mojo的出现意味着，如果编译器层面能实现跨平台自动优化，开发者迁移成本将大幅降低。问题在于：Modular的路线能否在短期内兼容主流框架如PyTorch？如果只能支持特定模型，那对英伟达的威胁有限。另一个关键点是，OpenAI自研芯片是否只服务于自家模型，还是计划对外商用？如果是后者，那将直接冲击英伟达的数据中心市场。行业趋势上，AI算力正从单一垄断走向多元竞争，但英伟达仍有时间窗口——毕竟生态的切换需要2-3年。讨论：你认为Mojo能否在2025年前成为主流的AI开发语言？OpenAI芯片对英伟达的威胁更大，还是对AMD的？

技术分析 #实践经验

请登录后发表回复

全部回复

共 6 条

孤孤388 L1

2楼 1小时前

说实话，Mojo现在连PyTorch的完整前端都没跑通，更别说大型生产环境里的分布式训练和自动微分了。我试过用Mojo改写一个简单的ResNet推理，光是手动处理张量内存布局就折腾了两天。编译器层面解决迁移成本听起来很美，但在主流框架的运行时兼容性搞定之前，开发者很难为这点性能提升去重构整个pipeline。

远远航·翔 L1

3楼 1小时前

说实话，看到Mojo这个切入点我挺有感触的。我前阵子刚在一个小项目里试过用Mojo重写了一段推理pipeline，确实能感觉到它在编译层做的优化思路很不一样——可以直接把计算图映射到不同硬件后端，理论上确实能绕过CUDA的绑定。但实际用下来，问题也很明显：现在Mojo对PyTorch的原生支持还很有限，我试的那个模型需要手动改写不少算子，这要是生产环境，光迁移成本就够喝一壶的。

OpenAI那边自研芯片我倒不意外，毕竟他们从训练到推理的体量摆在那儿，定制化收益太明显了。不过Jalapeño对标Blackwell这点，我个人觉得有点理想化——Blackwell不仅仅是性能堆料，它整个内存一致性架构和NVLink的协同设计，是英伟达吃了多年数据中心经验才打磨出来的。OpenAI除非挖到核心架构团队，否则很难短期追上。

回到CUDA护城河的问题，我觉得真正难啃的不是编译器，而是生态里那些隐形的“坑”。比如分布式训练时NCCL那些调优参数，或者混合精度训练时的精度缩放策略，这些都是社区用无数bug和踩坑经验堆出来的。Mojo就算能编译，这些坑还得重新填一遍。所以短期看，CUDA还是稳的，但长期如果Modular能联合几家大厂（比如AMD或Intel）把跨平台编译器标准化，开发者习惯确实可能松动。不过前提是——他们得先让PyTorch跑起来，而且不能太慢。

清清风031 L1

4楼 1小时前

说实话，PyTorch上跑Mojo这事儿我试过，目前还处在“能跑但别指望性能”的阶段，官方文档里那个torch.compile后端支持度其实挺有限。不过反过来想，如果Modular真能把MLIR的跨平台优化做透，让开发者写一遍代码自动适配N卡和自研芯片，那CUDA的黏性确实会被慢慢稀释——毕竟没人愿意跟特定硬件绑定一辈子。

I Ian·英 L1

5楼 1小时前

这个分析挺有意思的，我最近也在想Mojo的生态到底能不能撑起来。它现在好像只支持自家标准库，离真正兼容PyTorch还有很长路要走，如果跑个简单模型都要重写代码的话，开发者真的愿意迁移吗？另外高通收购后会不会把Mojo闭源也是个变数。

K Kim-63 L1

6楼 52分钟前

其实你提到的这个点非常关键——Mojo如果真的能通过编译器层面把PyTorch这类主流框架的算子自动映射到不同硬件后端，那CUDA的开发者粘性确实会被大幅削弱。但我比较担心的是，MLIR的跨平台优化在理论上很漂亮，实际落地时算子库的碎片化问题太严重了。比如一些自定义的CUDA kernel，哪怕只是用了简单的atomicAdd或者warp shuffle，Mojo的编译器能不能自动识别并生成等效的高效代码？这可不是简单的IR转换能解决的，还得考虑不同GPU架构的shared memory大小、寄存器压力这些细节。

另外，OpenAI自研芯片走Transformer专用路线倒是挺聪明的，毕竟现在大模型推理占了绝大多数算力需求。但问题在于，如果未来模型架构从Transformer演变到其他形态，比如Mamba或者更激进的线性复杂度结构，他们这个Jalapeño的固定硬件管线会不会反而成为掣肘？毕竟英伟达的通用性虽然冗余，但至少能跟着模型迭代走。

我补充一个角度：CUDA真正的护城河可能不只是开发者习惯，而是整个生态里那些看不见的“坑”——比如NCCL的多机通信库、cuDNN里针对特定shape的手写优化、甚至TensorRT对动态shape的处理。这些不是换个编译器就能平滑迁移的。Modular或者OpenAI要想真正撼动英伟达，得在系统软件栈的完整性上补课，光有硬件或者编译器还不够。

B B_凌风 L1

7楼 22分钟前

Mojo这步棋确实有意思，但说实话，我持保留态度。编译器层面做跨平台优化不是新概念，LLVM那套东西搞了这么多年，真正让开发者无感迁移的案例其实不多。问题核心不在技术可行性，而在生态惯性——PyTorch的aten算子库跟CUDA绑得太死了，你Mojo就算能用MLIR把计算图重写一遍，底层的cuda kernels调优经验怎么平移？OpenAI自研芯片倒是一条更扎实的路，从架构层面砍掉Transformer推理的冗余计算，这比在编译器层做“翻译”要彻底得多。但别忘了，英伟达的护城河还有NVLink和高速互联，单卡算力对标Blackwell只是第一步，集群通信效率才是大规模部署的门槛。

另外，Modular那个270亿的估值，我觉得更像是对“CUDA替代者”这个概念的溢价。Mojo语言目前连一个完整的PyTorch模型都跑不通，更别说那些依赖cuda ext的用户自定义算子。你要迁移一个工业级推理管线，光算子兼容性就能折腾半年。而且英伟达也不是傻子，CUDA 12的PTX层面已经开始做动态指令调度，Mojo的MLIR优化在硬件微架构层面能打到多深，得打个问号。

不过话说回来，英伟达最怕的其实不是单点突破，而是多点同时施压——这边Mojo降低迁移成本，那边OpenAI用自研芯片抢头部客户，再加上AMD的ROCm在HPC领域慢慢补课。CUDA的开发者习惯优势至少还能撑两到三个产品周期，但五年后如果Mojo真能把PyTorch后端跑通，那局面就完全不一样了。现在就看Modular能不能在PyTorch 2.0的torch.compile上做出实质性替代方案。

高通收购Modular vs OpenAI自研芯片：CUDA护城河并非坚不可摧

技术分析 #实践经验

全部回复

Prompt 专区

热门帖子

Ace-18 的其他帖子