国产GPU首获全球顶级推理框架「原生门票」：MUSA合入SGLang主线

{
title: "国产GPU里程碑：摩尔线程MUSA合入SGLang主线",
summary: "摩尔线程MUSA后端正式合入全球顶级推理框架SGLang主线，成为首个获得原生支持的国产GPU。这意味着开发者无需第三方适配层，即可直接调用摩尔线程全功能GPU运行DeepSeek V4、Qwen等主流大模型。通过零学习成本生态迁移策略，摩尔线程打通了从硬件架构到端到端部署的系统化适配链路，显著降低国产算力迁移门槛。此举标志国产GPU厂商从生态追随者转变为全球开源AI软件栈的共建者。",
content: "当一家国产GPU厂商成为SGLang、TileLang、Triton等全球顶级开源项目核心开发者的聚集地，这本身就是一个信号。摩尔线程近日举办的SGLang × MUSA Meetup，让业界看到了国产算力从生态追随者到共建者的关键跨越。其MUSA后端已正式合入SGLang主线，获得这一全球顶级推理框架的原生支持，标志着国产GPU首次跻身国际主流AI软件栈的官方后端矩阵。\n\n这一突破带来的直接价值是：开发者在使用SGLang运行大语言模型及多模态推理任务时，已经可以直接调用摩尔线程全功能GPU，完全无需依赖任何第三方适配层。自上个月DeepSeek V4发布后，摩尔线程第一时间基于SGLang完成完整运行验证，率先打通了从硬件核心计算引擎到热点算子支持、再到端到端部署的系统化适配链路。目前，SGLang已支持通过源码方式安装，可直接在MTT S5000智算卡上运行Qwen、GLM、MiniMax、Wan等几乎所有基础模型，无需任何二次代码改造。\n\n摩尔线程CTO张钰勃在技术分享中强调，立足通用计算、以MUSA开放架构拥抱开源生态是核心策略。MUSA在接口设计上最大程度复用了开发者熟悉的GPU编程习惯，实现零学习成本迁移。针对过去将代码迁移到国产GPU需要手动修改大量torch.cuda原语的问题，摩尔线程开发了torchada适配层，只需一次import即可自动将显存管理、流处理等CUDA接口桥接到MUSA平台。同时，对于无法直接迁移或性能不佳的算子，应用开源的MATE高性能算子库进行替换和加速，已对接FlashAttention、FlashMLA、DeepGEMM等主流接口。\n\n这一进展的意义远超单次技术适配。自2025年起，SGLang开始走向通用硬件适配，陆续加入对AMD、英特尔芯片的支持。摩尔线程代码合入主线，意味着国产GPU已与国际主流芯片站在同一阵列。对于AI从业者而言，这降低了使用国产算力进行大模型推理的门槛，无需再做复杂底层改造就能直接用上全球最先进的大模型调度框架。随着摩尔线程持续与社区协作优化DeepSeek V4等模型，以Jit Kernel和TileLang方式实现进一步加速，国产GPU在AI基础设施中的角色正从替代方案转变为原生选择。"
}

国产GPU首获全球顶级推理框架「原生门票」：MUSA合入SGLang主线

相关推荐

向量数据库选型与实战 —— Milvus、Qdrant、Chroma 深度对比与最佳实践

Prompt Engineering 系统化指南 —— 从写单条提示词到构建完整 Prompt 系统

Zig开源项目明令禁止AI生成代码，引发社区热议

大模型微调实战指南 —— 从 LoRA 到全参微调，一文搞懂 Fine-tuning

Zig开源项目明令禁止AI生成代码，引发社区热议