{
title: "国产GPU里程碑:摩尔线程MUSA合入SGLang主线",
summary: "摩尔线程MUSA后端正式合入全球顶级推理框架SGLang主线,成为首个获得原生支持的国产GPU。这意味着开发者无需第三方适配层,即可直接调用摩尔线程全功能GPU运行DeepSeek V4、Qwen等主流大模型。通过零学习成本生态迁移策略,摩尔线程打通了从硬件架构到端到端部署的系统化适配链路,显著降低国产算力迁移门槛。此举标志国产GPU厂商从生态追随者转变为全球开源AI软件栈的共建者。",
content: "当一家国产GPU厂商成为SGLang、TileLang、Triton等全球顶级开源项目核心开发者的聚集地,这本身就是一个信号。摩尔线程近日举办的SGLang × MUSA Meetup,让业界看到了国产算力从生态追随者到共建者的关键跨越。其MUSA后端已正式合入SGLang主线,获得这一全球顶级推理框架的原生支持,标志着国产GPU首次跻身国际主流AI软件栈的官方后端矩阵。\n\n这一突破带来的直接价值是:开发者在使用SGLang运行大语言模型及多模态推理任务时,已经可以直接调用摩尔线程全功能GPU,完全无需依赖任何第三方适配层。自上个月DeepSeek V4发布后,摩尔线程第一时间基于SGLang完成完整运行验证,率先打通了从硬件核心计算引擎到热点算子支持、再到端到端部署的系统化适配链路。目前,SGLang已支持通过源码方式安装,可直接在MTT S5000智算卡上运行Qwen、GLM、MiniMax、Wan等几乎所有基础模型,无需任何二次代码改造。\n\n摩尔线程CTO张钰勃在技术分享中强调,立足通用计算、以MUSA开放架构拥抱开源生态是核心策略。MUSA在接口设计上最大程度复用了开发者熟悉的GPU编程习惯,实现零学习成本迁移。针对过去将代码迁移到国产GPU需要手动修改大量torch.cuda原语的问题,摩尔线程开发了torchada适配层,只需一次import即可自动将显存管理、流处理等CUDA接口桥接到MUSA平台。同时,对于无法直接迁移或性能不佳的算子,应用开源的MATE高性能算子库进行替换和加速,已对接FlashAttention、FlashMLA、DeepGEMM等主流接口。\n\n这一进展的意义远超单次技术适配。自2025年起,SGLang开始走向通用硬件适配,陆续加入对AMD、英特尔芯片的支持。摩尔线程代码合入主线,意味着国产GPU已与国际主流芯片站在同一阵列。对于AI从业者而言,这降低了使用国产算力进行大模型推理的门槛,无需再做复杂底层改造就能直接用上全球最先进的大模型调度框架。随着摩尔线程持续与社区协作优化DeepSeek V4等模型,以Jit Kernel和TileLang方式实现进一步加速,国产GPU在AI基础设施中的角色正从替代方案转变为原生选择。"
}
国产GPU首获全球顶级推理框架「原生门票」:MUSA合入SGLang主线
AITNT
16天前
14
18
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容