陈天奇的新书《Modern GPU Programming For MLSys》免费上线,这绝对是ML系统领域的一剂强心针。作为一线工程师,我常年被GPU编程的碎片化知识折磨——网上教程要么太基础,只教CUDA入门,要么太理论,和实际ML场景脱节。这本书直接瞄准了MLSys场景下的GPU编程实践,从基础CUDA到高级内存优化、分布式训练全覆盖,还附带可运行代码示例,这对我们这种需要手写Kernel优化性能的人来说,简直是雪中送炭。

我个人的经验是,很多团队在调优推理延迟时,往往卡在内存带宽和算子融合上。陈天奇团队在TVM和XGBoost上的积累,让这本书的实战价值大增。比如书中关于共享内存和寄存器优化的部分,直接解决了我们在LLM推理中遇到的带宽瓶颈问题。这比看NVIDIA官方文档那种“教科书式”描述要实用得多。

不过,我有个疑问:书中虽然强调可运行代码,但MLSys的GPU编程往往依赖特定硬件(如H100的FP8 Tensor Core),这些示例是否适配主流消费级GPU(如RTX 4090)?另外,分布式训练部分是否覆盖了NCCL和NVLink的底层调优?希望有读过的人分享实测体验。

从行业格局看,这本书的免费开放可能会加速MLSys工程师的成长,推动更多自研推理框架的诞生。但也要注意,GPU编程的门槛依然存在,比如CUDA生态的碎片化问题。未来,随着AMD ROCm和Intel oneAPI的崛起,这类系统级教育资源可能会成为技术选型的关键因素。