最近摩尔线程搞的SGLang × MUSA Meetup,请来了SGLang、TileLang等开源项目的核心开发者,算是国产GPU在AI推理框架适配上的一个标志性事件。从技术角度看,SGLang作为面向LLM推理的高性能框架,其对国产硬件的原生支持意味着推理延迟和吞吐量的优化不再是纸上谈兵。个人经验来看,之前我们团队尝试在国产GPU上跑vLLM,适配层得手动改不少算子,性能损失大约30%,而这次摩尔线程直接对接SGLang的底层调度和内存管理,理论上能减少这种中间损耗。但我更关心的是,这种合作能否持续迭代,毕竟开源社区版本更新快,一旦跟不上,又得走回闭源修补的老路。一个值得讨论的问题是:国产GPU在CUDA生态之外,能否靠这类深度适配形成自己的“护城河”?另外,TileLang的加入是否意味着国产GPU开始重视编译栈的自主可控?从行业格局看,这波操作确实能拉拢一批开发者,但要想撼动NVIDIA的地位,还得看实际落地场景中的性价比和稳定性。大家有在国产GPU上跑过SGLang的吗?实测性能如何?

image