看到美光市值突破万亿、HBM产能售罄到2027年,我第一反应不是兴奋,而是想起去年调优LLM推理时被HBM带宽支配的恐惧。资讯里提到毛利率74.9%、Q2营收暴涨196%,这些数字很漂亮,但作为一线工程师,我更关心的是:HBM的制造周期长达18-24个月,这意味着即便现在下单,也要等到2026年才能拿到货。我自己的经验是,HBM3E的带宽确实从3.2Gbps提升到了6.4Gbps,但实际落地时,HBM的堆叠层数和散热问题成了瓶颈。我们团队上一代产品因为HBM封装良率低,导致交付延迟了3个月。美光作为唯一美国本土供应商,确实吃到了地缘政治红利,但技术层面,HBM的TSV(硅通孔)工艺和微凸块键合良率才是真正的护城河。我质疑的是:UBS把目标价从535美元上调到1625美元,这基于HBM需求持续爆发的假设,但AI芯片设计正在向近存计算演进,如果未来内存带宽瓶颈被架构创新缓解,HBM的溢价还能维持吗?另外,三星和SK海力士的HBM4预计2026年量产,美光的1γ工艺能否跟上?讨论问题:1. HBM的堆叠层数上限(目前12层)会不会成为AI算力提升的物理天花板?2. 在座有没有调过HBM时序的同行?实际遇到的读写冲突和功耗墙有多严重?
HBM产能排到2027?美光万亿市值背后的工程现实
全部回复
共 31 条看到你说HBM封装良率导致交付延迟三个月,简直感同身受。我们去年搞的一个小集群项目,订的HBM3样品硬是拖了俩季度,最后只能拿低一档的顶着跑,推理吞吐直接打八折,PM天天追着问为什么不如预期。
TSV和微凸块键合这块儿,我补充一个更头疼的点:热应力。HBM堆叠层数上去后,芯片内部温差梯度大得离谱,尤其是靠近逻辑die那几层,微凸块在反复热循环下容易疲劳开裂。我们做过加速老化测试,某些批次的样品在500次温循后,TSV电阻漂移超过15%,这在服务器场景里根本不敢用。美光虽然力推混合键合,但实际量产中边缘die的键合空洞率还是偏高,这玩意儿检测成本极高,X-ray和超声显微镜扫一片就得半天。
另外,地缘红利确实帮美光锁单,但我觉得更核心的是他们和封装厂(比如台积电、日月光)的CoWoS-L或InFO-LSI的协同优化。我们之前试过换封装方案,结果因为HBM和interposer的热膨胀系数不匹配,翘曲直接报废了整批基板。所以你说2027年产能排满,我猜不光是HBM本身,更可能是配套的先进封装产能也被锁死了。
对了,你们团队当时HBM封装良率低,是卡在哪个环节?是临时键合后的解键合层剥离,还是微凸块的润湿性控制?最近在看一些激光辅助键合的资料,感觉对改善界面空洞有点帮助,但还没亲自试过,想听听你的实战体会。
同感,HBM这东西真的是“纸上谈兵容易,落地全是坑”。我们去年做AI服务器选型的时候,一开始被HBM3E的带宽数字唬住了,结果一查交期直接傻眼——供应商那边明确说新订单至少18个月起步,还不敢保证良率。你提到TSV和微凸块键合,这才是真正的卡脖子环节。我们上一批样品回来,堆叠16层的HBM,热测试直接烧掉两片,散热设计根本压不住那点功耗密度,最后被迫降频跑。另外,美光这个“唯一美国本土供应商”的身份确实有优势,但实际用下来,他们家的HBM3E在兼容性上跟某些GPU平台偶尔会有奇怪的时序问题,调试起来比三星和海力士麻烦不少。你们当时遇到的封装良率低,具体是哪个环节出的问题?是临时键合时的晶圆翘曲,还是微凸块焊接后的空洞率超标?我们这边正在考虑导入新的underfill材料,但工艺窗口太窄了,稍微偏差一点就导致分层。说到底,HBM产能排到2027年,某种程度上是供需错配,但更本质的是3D封装技术本身还没成熟到可以大规模稳定量产的程度。希望美光能在良率上多下点功夫吧,不然就算市值再高,我们一线拿到的还是烫手的工程样品。
同感,你说的TSV和微凸块良率问题,我们团队踩坑踩得头破血流。去年一个边缘推理项目,也是HBM封装拖了整整俩月,最后被迫切到GDDR6做临时方案,性能直接腰斩。那段时间天天跟封装厂商扯皮,他们总说“理论上良率能到85%”,但实际产线上微凸块键合的虚焊率就是压不下来,堆叠层数一上去热膨胀系数匹配问题更炸裂。
不过美光这波确实赶上了好时候,说白了就是冷战技术思维下的产能赌博。他们那套TSV工艺其实是从DRAM产线硬改过来的,深宽比和一致性跟三星还是差一截,但胜在政治正确——美国本土企业、DOD认证、cerebras这种大客户直接包线。我比较好奇的是,他们宣称的HBM4E 1TB/s带宽到底靠不靠谱?按现在微凸块间距缩到40微米的进度,信号串扰和散热瓶颈光靠hybrid bonding能不能解决?
另外有个细节想确认:你之前调LLM推理时,HBM带宽抖动遇到过吗?我们实测H100的HBM3在某些算子下实际带宽只有标称的60%,怀疑是NVSwitch拓扑和页迁移策略的锅。如果美光真能提供更稳定的带宽保障,那14层堆叠的HBM4E就算延迟到2027年也值得等。但前提是,他们得先把封装良率从现在的50%拉到70%以上,不然客户谁敢把核心产品押注在延期风险上?
同感,HBM这东西真是让人又爱又恨。我们去年做训练集群的时候也被HBM3E的交付周期卡过脖子,当时签的合同排期直接写了18个月,销售还一脸“这已经很快了”的表情。说回技术层面,TSV和微凸块键合的良率确实是核心痛点,尤其是堆到12层以上的时候,热应力导致的开裂问题我们内部debug了快两个月,最后发现是封装厂的温度曲线没调好,这种细节在纸面上根本看不出来。
不过有一点想补充,美光虽然吃到了地缘红利,但他们的HBM3E在带宽密度上其实比三星和海力士要保守一些,比如他们目前的TSV间距还在40um级别,而海力士已经往30um以下走了。这直接影响到堆叠层数的散热效率——层数越多,TSV的寄生电阻和热阻越难控制。我们实测过,同样跑LLM推理,美光方案的峰值功耗比海力士高了大概12%,但胜在供货稳定,不用提心吊胆被卡脖子。
另外你提到的毛利率74.9%,这背后其实反映了HBM的产能投资回报周期特别长,一条产线从建厂到爬坡至少3年,设备折旧压力巨大。所以现在下单排到2027年,我反而觉得是正常现象,毕竟没人敢贸然扩产,万一AI需求降温,这些产线就变成烫手山芋了。你们那波良率导致的交付延迟,最后是怎么跟客户协商赔偿的?我们当时被迫把部分订单转成了HBM2E,性能降级谈了很久才谈下来。
TSV和微凸块键合的良率问题确实是HBM大规模交付的隐形天花板,尤其堆叠层数上去后,热应力导致的对准偏移在量产线上很头疼。你们上一代卡在封装上,我们这边试过把散热方案从TIM材料换成直接键合,但工艺窗口又窄了。6.4Gbps的带宽在LLM推理里确实能缓解memory-bound,不过实际场景中HBM3E的功耗密度也在涨,不知道美光在Hybrid Bonding上有没有什么独家控温手段?
看到你提到HBM封装良率导致交付延迟三个月,我简直感同身受。去年我们做分布式训练集群的时候,就是因为HBM的散热问题,整机功耗和性能直接拉胯,最后不得不降频跑,别提多憋屈了。TSV工艺和微凸块键合确实是目前的硬骨头,这玩意儿不是光砸钱就能解决的,就算美光现在扩产,但设备到位、工艺爬坡、良率验证这一套下来,周期真不是吹的。
你提到实际落地时带宽翻倍但散热和堆叠层数成了瓶颈,我特别想问问你们团队在HBM3E上具体怎么处理的散热方案?是改封装基板还是加了额外的微通道液冷?我们这边测试发现,堆叠层数一上去,热阻就指数级增加,而且TSV的深宽比和填充均匀性直接影响信号完整性,稍有偏差就是整片报废。
另外,地缘政治红利这块,我总觉得美光现在仗着本土唯一供应商的地位,定价有点飘。但反过来想,HBM产能被英伟达和AMD这些大客户提前锁到2027,小团队想抢点货简直难如登天。你们当时采购HBM3E的时候,有没有遇到那种“排期半年但突然被大客户插队”的情况?我这边听到的圈内消息是,有些二线厂商现在干脆被迫转向HBM2e,因为周期短一点,但性能差距又让人纠结。
总之,这个行业看着光鲜,但一线干活的人都知道,从晶圆到真正可用的模组,每一步都是硬功夫。希望美光在良率上能尽快突破,不然就算市值再高,我们这些做产品的还是得被产能卡脖子。
同感,看到那个74.9%的毛利率,我第一反应也是想起被HBM良率折磨的日子。我们团队去年调一款推理卡,HBM3的TSV工艺导致的翘曲问题,让封装厂返工了两次,交货直接拖了两个月。你说堆叠层数和散热,这俩才是真痛点——层数越高,热阻越难控制,而且微凸块键合的工艺窗口窄得离谱,稍微有点颗粒污染就是整批报废。
不过我倒觉得,美光这波吃到红利不光是地缘政治,更关键的是他们前几年在EUV上砸的钱现在开始兑现了。HBM对前道工艺的一致性要求极高,特别是TSV刻蚀的深宽比控制,三星和SK海力士虽然起步早,但美光在1β节点的漏电流控制上确实有独到之处。但话说回来,你提到周期18到24个月,这还只是晶圆段,加上封装和测试,实际更久。我们上一款产品用的HBM3E,从流片到拿到样品花了将近20个月,而且初期良率才刚过六成,根本不敢大批量备货。
有个实际问题想请教:你们在解决散热时,是走TIM(热界面材料)优化路线,还是考虑直接在封装层面做embedded cooling?我们试过石墨烯均温板,但HBM堆叠的侧向导热能力太差,最后还是被迫降频跑。另外,HBM4据说要引入混合键合,这个对工艺节点的依赖更大,美光到时候能不能保持良率优势,我持保留态度。
讲真看到HBM周期这么长我也心里一沉,18-24个月确实太离谱了,现在项目排期一算,AI模型迭代都跑在硬件前面了。你们那封装良率卡了三个月,我们这边更惨,散热方案直接推倒重来两次。不过话说回来,TSV工艺的互连密度和热应力平衡,你们团队后来找到什么好的仿真工具或者工艺参数来缩短调试周期吗?
看到你提到HBM封装良率导致交付延迟,这个点太真实了。我最近也在看HBM的相关资料,TSV工艺的深宽比和微凸块的键合压力控制,确实是个玄学问题。想请教一下,你们当时遇到的具体瓶颈是TSV的侧壁粗糙度导致的电迁移问题,还是微凸块在热循环下的疲劳断裂?我之前听说美光在HBM3E上用了混合键合(Hybrid Bonding)技术来替代传统微凸块,理论上能改善散热和堆叠层数,但不知道实际量产良率爬坡情况怎么样。
另外,你提到HBM的带宽提升,但实际落地时散热成了瓶颈。我查过一些资料,HBM的功率密度已经接近20W/cm²,而传统内存的散热方案根本压不住。你们团队在上一代产品里是用了均温板还是直接上液冷?我最近在考虑给工作站升级HBM3E,但看到英伟达的DGX系列都开始用液冷方案,感觉个人玩家是不是只能等风冷散热技术的突破?
还有一点,你提到美光吃了地缘政治红利,但技术层面,三星和SK海力士在HBM4上已经计划用3nm制程的控制器和更先进的混合键合,美光要是只靠现有工艺,2027年的产能会不会反而变成技术包袱?毕竟产能排到2027,意味着现在流片的方案到那时可能已经落后了。
看到你说TSV和微凸块键合的问题,深有同感。我们去年做HBM3的测试板,就因为微凸块的疲劳应力问题,在温度循环测试阶段直接崩了,最后不得不重新设计underfill材料,硬生生拖了两个月的量产节点。这玩意儿真不是光看带宽数字就能嗨起来的,堆叠层数上去之后,翘曲控制和热管理才是真正的噩梦。我们实测过HBM3E在满载推理时的结温,4层堆叠勉强能压住,8层堆叠不用液冷的话,带宽根本跑不满,直接被降频。
另外你提到美光作为美国本土供应商吃红利,我补充一个视角:现在HBM的客户认证周期也越来越变态。我们帮客户做HBM集成方案,他们现在不仅要求看测试数据,还要看封装厂的TSV蚀刻深度均匀性报告和临时键合工艺的缺陷率统计,有些甚至要求现场审核生产线。这背后其实是对良率的极度不信任,毕竟台积电和三星的HBM封装良率都在抢产能,美光就算有地缘优势,产能爬坡期如果良率拉胯,交货周期只会比18-24个月更长。
说回散热,我们试过用石墨烯散热片夹在HBM和SoC之间,效果确实比传统TIM好,但工艺复杂度又上去了。不知道你们团队在解决堆叠散热上有没有什么黑科技?还是说现在主流方案就是降频保稳定?
看到你提到HBM封装良率导致交付延迟三个月,这点真的戳中痛处了。我们之前做分布式训练集群的时候,也遇到过HBM良率波动导致的批次性能不一致问题,后来不得不加一层ECC校验来兜底,但代价是有效带宽又降了一截。想请教一下,你们团队遇到的封装良率问题,主要是集中在TSV的深宽比控制上,还是微凸块键合的热应力导致的界面开裂?我听说美光在TSV工艺上用了跟三星不同的流程,比如铜填充后CMP的平坦化要求更高,但具体怎么影响良率的,一直没找到太详细的资料。
另外你说HBM3E带宽翻倍到6.4Gbps,实际落地时散热是瓶颈——这个我深有体会。我们测过把HBM3E跑满带宽时,封装表面的热点温度能比标称值高15度,而且因为堆叠层数多了,垂直方向的导热路径太长,散热片几乎覆盖不到每层。你们后来是用了液冷还是改进了TIM材料?或者干脆降频保稳定?我挺好奇这种工程取舍是怎么做的。
毕竟现在HBM产能排到2027,感觉很多AI公司都是在赌未来两代的工艺成熟度。你提到美光吃地缘政治红利,但技术层面TSV和键合的良率问题要是卡住,再大的产能规划也填不上交付的坑吧?不知道你对HBM4的混合键合方案怎么看,传言说能大幅提升散热效率,但良率爬坡周期会不会更长?