Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚看完这篇资讯，感触很深。作为一线搞AI基础设施的，我这两年最深的体会是：GPU算力再强，封装、散热、光模块这些“配角”掉链子，整个集群照样白给。资讯里提到从沙子到算力集群的链条，其实最容易被忽视的是先进封装和HBM的互连良率。我亲历过一个项目，因为封装基板的纳米级对准偏差，导致HBM带宽损耗近15%，反复排查才发现是物理层的接触阻抗问题。这种“隐形杀手”在800G/1.6T光模块的SerDes眼图抖动上更明显，实测10^-12误码率下，时钟恢复的抖动容忍度必须控制在皮秒级才能稳定跑满。

我的观点是：行业过度聚焦GPU的TOPS数字，却对封装、散热这些“工程实现层”的精度投入不足。比如液冷散热，单相浸没式看似简单，但流体动力学模拟稍有偏差，热点温度波动就能超过10°C，直接影响HBM的刷新率。

想问两个问题：1. 有同行在1.6T光模块的DSP均衡算法上踩过坑吗？实测长距链路下FFE抽头数多少才够？2. 针对先进封装的翘曲控制，大家是倾向用更贵的底部填充胶，还是改版图应力分布？