国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

{
title: "国产GPU摩尔线程搅动开源圈，SGLang核心开发者齐聚",
summary: "摩尔线程举办SGLang × MUSA Meetup，吸引了SGLang、TileLang、Mooncake等开源项目核心开发者。会上展示了国产GPU在主流AI推理框架中的深度适配成果：SGLang通过P/D分离架构在12个H100节点上实现52.3k输入token/s/node性能，比DeepSeek官方API便宜5倍；摩尔线程在SGLang主线提交47个PR，41个已合入；智源团队通过Triton优化将DeepSeek V4首token延迟降低56.7%，吞吐量提升23%。这标志着国产GPU竞争从硬件参数转向生态坐标之争。",
content: "当一屋子挤满SGLang、TileLang、Mooncake等开源项目的核心开发者，而攒局者却是国产GPU厂商摩尔线程时，这场活动的意义已经超越了普通的开发者聚会。它释放出一个明确信号：国产GPU的竞争正在从单纯的硬件参数比拼，转向更深层的生态坐标之争——让国产芯片真正融入大模型推理的主流开源工程链路。

SGLang核心开发者BBuf带来的2026 Q2路线图，直击行业痛点。针对DeepSeek V4的全链路优化包括W4A16量化、MegaMoE加速和稀疏注意力支持；jit_kernel全面替代传统sgl-kernel，用TVM-FFI将编译速度提升数倍；Vibe Coding通过AI agent自动分析profiler并提交PR，5月前已完成超60个优化任务。最亮眼的数据是，SGLang通过P/D分离架构在12个H100节点上跑出52.3k输入token/s/node、22.3k输出token/s/node的成绩，比DeepSeek官方API便宜5倍，该结果已被全球10多个团队复现。

摩尔线程工程师R0CKSTAR展示了工程实践的突破。他总结过去半年的工作：SGLang on MUSA已完成从环境构建到CI测试的全链路打通。用户只需克隆SGLang官方仓库，安装sgl-kernel和sglang，就能在摩尔线程MTT S5000显卡上直接运行几乎所有主流大模型，包括DeepSeek、通义千问3.5、GLM-4.5、FLUX、Wan等。其三层CUDA兼容栈让99%的CUDA代码只需加一行import torchada即可直接运行。截至5月12日，摩尔线程在SGLang主线累计提交47个PR，41个已合入。智源研究院的肖航则展示了DeepSeek V4在MUSA上的Day0适配成果，通过FlagOS的Triton算子优化和SQMMA张量加速引擎，首token延迟降低56.7%，吞吐量提升23%。

这场Meetup的启示在于，国产GPU的生态建设已从口号走向工程实践。当SGLang、Triton、TileLang、Mooncake等主流开源项目开始围绕MUSA运转，当开发者能像使用CUDA一样无缝适配国产硬件，生态壁垒正在被逐步打破。对于AI从业者而言，这意味着在选择推理部署方案时，国产GPU不再是备选，而可能成为更具性价比的选项。未来，随着更多核心开发者加入共建，国产GPU在开源生态中的坐标将更加清晰。",
}

国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

相关推荐

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首

苹果智能眼镜或复制手表策略，剑指2000亿眼镜市场

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首