最近读到一篇关于AI硬件产业链的深度分析,从GPU设计到HBM再到光模块,每个环节都被点出“纳米级”精度要求。但我想从实践角度请教一个问题:我们总说算力瓶颈在制程,但真正限制大规模AI集群性能的,究竟是芯片本身的纳米级工艺,还是封装和互连这些“边缘”技术?以我个人观察,在训练千亿参数模型时,HBM带宽和光模块的功耗延迟往往比单芯片算力更早成为瓶颈。比如,HBM3的堆叠层数提升带来了热管理难题,而1.6T光模块的良率至今不高。这些环节的“纳米级”挑战,其实不亚于台积电的3nm工艺。那么,当前产业链中最容易被忽视的“卡脖子”环节是哪一环?是先进封装(如CoWoS)的产能,还是高带宽存储的堆叠可靠性?希望有硬件实战经验的大佬分享一些测试数据或案例,比如在800G光模块中,信号完整性是如何被纳米级表面粗糙度影响的?这种讨论比单纯强调制程更有实践价值。