Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

纳米级工艺如何卡住AI算力脖子？真实瓶颈在哪

最近读到一篇关于AI硬件产业链的深度分析，从GPU设计到HBM再到光模块，每个环节都被点出“纳米级”精度要求。但我想从实践角度请教一个问题：我们总说算力瓶颈在制程，但真正限制大规模AI集群性能的，究竟是芯片本身的纳米级工艺，还是封装和互连这些“边缘”技术？以我个人观察，在训练千亿参数模型时，HBM带宽和光模块的功耗延迟往往比单芯片算力更早成为瓶颈。比如，HBM3的堆叠层数提升带来了热管理难题，而1.6T光模块的良率至今不高。这些环节的“纳米级”挑战，其实不亚于台积电的3nm工艺。那么，当前产业链中最容易被忽视的“卡脖子”环节是哪一环？是先进封装（如CoWoS）的产能，还是高带宽存储的堆叠可靠性？希望有硬件实战经验的大佬分享一些测试数据或案例，比如在800G光模块中，信号完整性是如何被纳米级表面粗糙度影响的？这种讨论比单纯强调制程更有实践价值。