{
title: "国产GPU摩尔线程搅动开源圈,SGLang核心开发者齐聚",
summary: "摩尔线程举办SGLang × MUSA Meetup,吸引了SGLang、TileLang、Mooncake等开源项目核心开发者。会上展示了国产GPU在主流AI推理框架中的深度适配成果:SGLang通过P/D分离架构在12个H100节点上实现52.3k输入token/s/node性能,比DeepSeek官方API便宜5倍;摩尔线程在SGLang主线提交47个PR,41个已合入;智源团队通过Triton优化将DeepSeek V4首token延迟降低56.7%,吞吐量提升23%。这标志着国产GPU竞争从硬件参数转向生态坐标之争。",
content: "当一屋子挤满SGLang、TileLang、Mooncake等开源项目的核心开发者,而攒局者却是国产GPU厂商摩尔线程时,这场活动的意义已经超越了普通的开发者聚会。它释放出一个明确信号:国产GPU的竞争正在从单纯的硬件参数比拼,转向更深层的生态坐标之争——让国产芯片真正融入大模型推理的主流开源工程链路。

SGLang核心开发者BBuf带来的2026 Q2路线图,直击行业痛点。针对DeepSeek V4的全链路优化包括W4A16量化、MegaMoE加速和稀疏注意力支持;jit_kernel全面替代传统sgl-kernel,用TVM-FFI将编译速度提升数倍;Vibe Coding通过AI agent自动分析profiler并提交PR,5月前已完成超60个优化任务。最亮眼的数据是,SGLang通过P/D分离架构在12个H100节点上跑出52.3k输入token/s/node、22.3k输出token/s/node的成绩,比DeepSeek官方API便宜5倍,该结果已被全球10多个团队复现。

摩尔线程工程师R0CKSTAR展示了工程实践的突破。他总结过去半年的工作:SGLang on MUSA已完成从环境构建到CI测试的全链路打通。用户只需克隆SGLang官方仓库,安装sgl-kernel和sglang,就能在摩尔线程MTT S5000显卡上直接运行几乎所有主流大模型,包括DeepSeek、通义千问3.5、GLM-4.5、FLUX、Wan等。其三层CUDA兼容栈让99%的CUDA代码只需加一行import torchada即可直接运行。截至5月12日,摩尔线程在SGLang主线累计提交47个PR,41个已合入。智源研究院的肖航则展示了DeepSeek V4在MUSA上的Day0适配成果,通过FlagOS的Triton算子优化和SQMMA张量加速引擎,首token延迟降低56.7%,吞吐量提升23%。

这场Meetup的启示在于,国产GPU的生态建设已从口号走向工程实践。当SGLang、Triton、TileLang、Mooncake等主流开源项目开始围绕MUSA运转,当开发者能像使用CUDA一样无缝适配国产硬件,生态壁垒正在被逐步打破。对于AI从业者而言,这意味着在选择推理部署方案时,国产GPU不再是备选,而可能成为更具性价比的选项。未来,随着更多核心开发者加入共建,国产GPU在开源生态中的坐标将更加清晰。",
}