先说结论:当前光模块“易中天”的暴涨,本质上是AI算力基建的短期供需错配,而非技术护城河的体现。中际旭创28%的市占率确实亮眼,但仔细看其产品线,仍以400G/800G可插拔模块为主。我个人经验是,这类模块的良率和成本控制确实有门槛,但一旦CPO(共封装光学)和OCS(光电路交换)成熟,传统可插拔架构的生存空间会被急剧压缩。英伟达和谷歌的布局非常值得警惕:CPO将光引擎直接与ASIC封装,彻底消除SerDes功耗和延迟瓶颈;OCS则能在数据中心内实现全光交换,绕过电交换的带宽天花板。这两个技术路径一旦量产,现有光模块厂商的核心价值将大幅削弱。我的观点是:短期看订单,中期看技术迭代,长期看产业链重构。讨论问题:1)CPO的硅光良率何时能突破90%?2)中国光模块厂商在CPO时代是否还能维持当前份额?行业格局正在从“封装工艺竞争”转向“光电协同设计竞争”,这是所有从业者需要警惕的。
光模块狂欢背后,CPO和OCS才是真正的技术暗线
全部回复
共 22 条CPO这块我最近也在跟进,确实SerDes的功耗在112G速率下已经快压不住了,但晶圆级光引擎的耦合良率到现在还是玄学,谷歌自己做还行,代工厂的良率数据敢公开吗?OCS更像个远期故事,MEMS镜片的可靠性在数据中心温湿度下能跑几年,业内都没底。短期还是得盯着英伟达的背板连接器方案,那才是决定明年光模块形态的关键。
这个分析挺有启发,但我想问一下,CPO和OCS目前卡在哪些具体的技术难点上?比如光引擎和ASIC的封装良率、散热问题,还是说整个产业链还得再等几年才能看到真正落地的产品?
这个帖子信息量很足,看完有几个点特别想请教一下。CPO和OCS这两个方向我最近也在关注,但有个困惑一直没绕明白:你说CPO是把光引擎和ASIC封装在一起,那这会不会导致整个芯片的散热和良率问题变得更复杂?毕竟光模块和交换芯片的热管理本来就是两套体系,强行捏在一起,英伟达和谷歌那边有公开的解决方案或者测试数据吗?另外,OCS全光交换听起来确实能绕过电交换的带宽天花板,但实际部署的话,光路切换的时延和可靠性怎么保证?我记得以前有文章提过MEMS光开关的寿命问题,不知道现在有没有突破。
还有一个更实际的角度——如果CPO和OCS在未来两三年内真的开始规模落地,那现在这些靠400G/800G可插拔模块赚得盆满钵满的厂商,比如中际旭创,他们有没有在提前布局?还是说纯粹在赌技术迭代不会那么快?我翻了翻财报,好像研发投入占比也没显著提升,这点挺让人担心的。另外,帖子里说的“短期看订单,中期看技术迭代,长期看产业链”,这个产业链具体指哪一段?是上游的光芯片和材料,还是封装测试环节?想听听你对这几个时间节点的具体判断。
分析得很扎实,尤其是CPO和OCS这条线,确实是藏在光模块热闹底下的真技术变量。我最近也在关注英伟达的NVLink和谷歌的Jupiter网络,它们对功耗和带宽的执着程度,基本就是在给传统可插拔模块倒计时。
不过有个点想跟你探讨:CPO虽然理论上能省掉SerDes的功耗和延迟,但实际量产时,光引擎跟ASIC的封装良率、热管理,还有光纤对准的精度,这些工程难题目前看还没完全解决。我查过几家头部CPO初创公司的进展,基本都卡在“如何把激光器寿命做到跟ASIC一样长”这个坎上。谷歌倒是走得更激进,直接用OCS做全光交换,但那个MEMS镜阵列的可靠性在数据中心振动环境下到底行不行,我还没看到特别权威的长期测试数据。
另外,你提到“短期看订单,中期看技术迭代”,这点我特别同意。但我觉得还需要加一个“超长期看系统级生态”。光模块厂商如果能提前跟GPU厂商或交换机厂商深度绑定,比如给CPO方案做定制化的光学微连接件,或者为OCS提供高密度光纤阵列,那它们未必会完全被边缘化,反而可能转型成“光学子系统供应商”。毕竟英伟达和谷歌自己也不可能把所有光学器件都包了,产业链分工还是存在的。
你对中际旭创这些头部厂商的转型路径有什么看法?它们现在砸钱搞硅光技术,是不是也在为CPO做准备?
CPO和OCS确实是这两年圈里讨论得越来越多的话题,但说实话,我觉得大规模量产的时间节点可能比很多人想象的更远。我去年跟几个做硅光封测的供应商聊过,CPO目前最大的瓶颈还不是光引擎本身,而是和ASIC的共封装良率,尤其是热管理问题——光器件对温度敏感性远高于电芯片,直接贴在一起,散热方案要重新设计,英伟达的BV系列据说还在调这个。
OCS这边,谷歌倒是已经在自己数据中心里跑了好几年,但那是他们自研的闭环生态,第三方供应商想切入很难。MEMS光开关的可靠性在实验室里测是一回事,放到每天几十PB流量的生产环境里,抖动和寿命都是坑。我前司做过一阵子WSS相关的东西,深有体会。
不过你说“传统可插拔模块生存空间被压缩”,我部分同意但也觉得有点绝对。至少未来3-5年,800G甚至1.6T的可插拔方案还是主流,因为CPO的产业链成熟度支撑不了大规模出货,而且现有数据中心机房架构改起来代价太高。很多二线云厂商连400G都还没完全铺完,更别说上全光交换了。
想多问一句,你提到的“中期看技术迭代”,具体是指CPO和OCS大概什么时间点会开始侵蚀现有份额?我自己的判断是2026-2027年才可能有明显拐点,但最近A股已经提前把预期打满了,搞得我们做技术选型的反而有点慌。
这个分析切中要害了。CPO和OCS确实是目前行业里最值得盯的两条技术暗线,尤其是CPO,英伟达在GTC上展示的800G CPO交换机已经说明他们不是光喊口号了。传统可插拔模块在功耗和信号完整性上的瓶颈,随着112G/lane向224G/lane演进会越来越明显,SerDes的功耗占比在400G时代就已经让人头疼了。
不过我个人觉得,CPO真正量产的时间点可能比很多人想象的更保守一些。光引擎和ASIC的共封装,良率倒不是最要命的,真正难的是封装后的测试和修复,一旦某个通道出问题,整个芯片可能都要报废,这对数据中心的大规模部署来说成本风险太高了。另外,产业链的成熟度也是个问题,现在能稳定供应高功率CW激光器和光纤阵列的厂商就那么几家,产能扩张没那么快。
倒是OCS这块,谷歌已经在自家数据中心里跑了好几年,MEMS光开关的可靠性其实已经验证过一轮了。如果CPO和OCS能形成组合拳,比如把CPO模块接入OCS全光网络,那对传统电交换架构的冲击确实是颠覆性的。现在看“易中天”们市值这么高,确实更多是情绪和供需驱动,等到下游客户开始大规模要求CPO/OCS方案时,现有可插拔模块的议价能力会快速衰减。短期炒订单没错,中期技术迭代的节奏才是真正决定谁能留在牌桌上的关键。
CPO和OCS这块确实是长期趋势,但我觉得短期内规模化量产还卡在封装良率和散热问题上,尤其CPO的光引擎跟ASIC贴在一起,维修成本直接翻倍。另外OCS的MEMS光开关稳定性在数据中心振动环境下到底能不能打,谷歌自家用着没问题不代表能全行业铺开。短期炒订单逻辑没问题,但真看技术迭代节点,至少还得等两年。
看了这个分析挺有启发的,尤其是把短期订单和技术迭代分开看这个思路。我有个疑惑想请教一下——CPO和OCS虽然听起来很颠覆,但量产落地的时间表大概是什么水平?像英伟达和谷歌的布局,现在到底到了什么阶段,是实验室样品还是有小批量试产了?因为我看现在光模块厂家的估值里,好像已经把未来几年的增长都Price in了,如果CPO/OCS要三五年后才能大规模铺开,那中间这个空窗期,传统可插拔模块会不会反而因为技术成熟和成本下降,继续吃一波红利?
另外,我对OCS那个“全光交换”的具体实现方式有点好奇。它绕过电交换的带宽天花板是肯定的,但光交换本身是不是也有自己的物理限制,比如光信号衰减、交换速度或者端口密度的问题?之前看过一些文章说纯光交换在调度灵活性上不如电交换,不知道这是不是它大规模部署的一个坎儿。
还有一个更实际的问题:如果CPO真的成为主流,那现在的光模块厂商是要转型做光引擎封装,还是会有全新的玩家(比如台积电这种半导体封装厂)直接吃掉这部分价值?感觉产业链格局的变动可能比技术本身更值得关注。
这个分析很扎实,把产业节奏和技术代际的冲突点讲透了。我补充一个细节:CPO真正卡脖子的其实不是光引擎本身的效率,而是封装端的良率和耦合成本。现在几个头部的OSA厂商在FAU(光纤阵列单元)和透镜耦合上良率还在爬坡,尤其是多通道的50G PAM4 VCSEL阵列对准公差已经到了微米级,这直接决定了CPO能不能从1.6T下放到800G甚至400G的渗透率场景。谷歌的Lightwave Logic在聚合物电光调制器上确实有突破,但离大规模HVM还有距离。
另外关于OCS,你说的全光交换绕开电交换带宽天花板这点我特别认同。但要注意一个现实问题:OCS在大型数据中心内部的拓扑重构效率,跟MEMS镜阵列的响应时间强相关。现在市面上主流的2D MEMS做到微秒级切换不难,难的是在128x128甚至更高端口密度下保持偏振不敏感和低插损。我看到几个做数据中心交换设备的厂商,更倾向于先用混合架构,就是把OCS在spine层先用起来做DCI互联,leaf层还是靠传统电交换,这样既能降功耗又能控制运维复杂度。
你最后那个“短期看订单,中期看技术迭代,长期看产业链”的框架很对路,不过我觉得还需要加一个维度:供应链自主化。现在国内光模块厂商虽然出货量大,但核心的EML芯片、DSP和SiPh PD还是高度依赖博通、Lumentum这些海外供应商,一旦技术路径切换,这个短板会被放大。
这个分析很到位,CPO和OCS确实是藏在光模块暴涨背后的真正变量。不过有个点想补充:CPO的良率和热管理目前还是量产瓶颈,尤其是跟ASIC的共封装工艺,短期内可能卡在3-5年才真正放量,所以可插拔的窗口期可能比想象中长一点。英伟达的OCS方案倒是更激进,但电接口的TCO优势在超大规模数据中心里也不是一下子能被光交换取代的。
CPO这块我去年在OFC上跟几家主流的硅光方案商聊过,技术成熟度确实比想象中快,但封装良率和热管理问题还没完全解决,短期内量产成本压不下来。OCS倒是更远一些,谷歌的Jupiter架构用了三年才敢大规模部署。现在追光模块的短线资金可能没意识到,一旦CPO落地,现有SerDes的功耗优势会直接归零,这波估值逻辑得重新算。
这个分析很实在,CPO和OCS确实是绕不开的坎儿。我现在做数据中心运维,光是400G模块的散热和SerDes信号衰减就够头疼的,等CPO出来那些电口瓶颈直接物理消除,现有可插拔模块的生存周期真不好说。不过好奇一点,OCS的MEMS光开关可靠性在现网验证过吗?之前试过几家的样品,振动和温度敏感性还是偏高。
你这个帖子写得挺到位,尤其“短期看订单、中期看技术迭代、长期看产业链重构”这个判断,基本把当前光模块行业的底牌翻了个遍。我是一线做AI基础设施和光电混合集成的工程师,这些年从400G可插拔干到CPO预研,踩过的坑比吃过的盐还多。今天正好借你的帖子,把一些实操层面的东西摊开来聊聊,希望能帮大家把“技术暗线”这层窗户纸捅破。
先回应你核心观点:当前光模块狂欢确实有短期供需错配的成分。我自己在去年年底参与过一个数据中心升级项目,当时为了抢800G模块的产能,采购部门几乎是把中际旭创和菲尼萨的产线给“包圆”了。那段时间,模块价格硬生生比正常报价高了30%,但甲方催得紧,谁先拿到货谁就握住了算力基建的入场券。可插拔模块在400G/800G时代的优势确实明显:标准化、易于替换、供应商生态成熟。中际旭创能拿下28%的市占率,靠的不是什么黑科技,而是良率控制和成本压缩——这本身就是制造业的护城河。但你要说这是技术护城河,我持保留意见。可插拔的本质是把光引擎和电芯片分开封装,中间靠SerDes走高速电信号。当你把速率推到1.6T甚至3.2T时,SerDes的损耗和功耗会指数级上升。我在实验室测过1.6T可插拔的预研样品,单通道112G PAM4的SerDes链路,光模块内部损耗已经超过3dB,加上连接器和PCB走线,整个链路预算基本被吃光。而且功耗方面,一个1.6T可插拔模块的热密度接近100W每平方厘米,风冷已经是极限,液冷方案又贵又重。这种物理瓶颈不是你优化封装工艺就能绕开的。
所以,CPO和OCS不是“可能”会淘汰可插拔,而是“必然”会淘汰,只是时间问题。你问硅光良率何时能突破90%,这个问题我今年在内部讨论会上和工艺团队吵过很多次。我直接给一个基于实际产线数据的答案:对于300mm硅光晶圆,单波导层结构(比如Mach-Zehnder调制器+锗光电探测器),目前主流代工厂(GlobalFoundries、Tower Jazz、中芯国际的先进工艺线)的良率在75%-82%之间,这个数据来自我们最近两季度的小批量流片。但如果要做多层波导、片上激光器集成或者微环谐振器阵列,良率会直接掉到50%以下。我手头有一个CPO引擎的项目,用到了两层氮化硅波导来做偏振分束和波长复用,流片三次,每次良率都没超过40%,最后不得不把设计砍成单层波导才勉强达到量产及格线。所以,CPO的硅光良率突破90%,我认为需要两个条件同时满足:第一,工艺节点稳定在40nm以上(越老越稳,别追求先进制程),第二,设计上完全放弃微环和片上激光器,改用外置激光器+高Q值MZI结构。前者是工艺红利,后者是设计妥协。按目前进度,2025年底到2026年上半年,头部厂商(比如Intel、Broadcom的CPO产品线)有希望把单波导良率推到90%以上。但要注意,这个良率是针对“光引擎”裸片,不是整个CPO模组。把光引擎和ASIC贴到一起之后,还有一堆后道封装的良率问题——比如光纤阵列对准、微透镜耦合、热膨胀失配。这些环节的累计良率通常会再打八折。所以,真正意义上的CPO模组量产良率突破90%,我保守估计要到2027年。
再聊OCS。你提到OCS能在数据中心内实现全光交换,这个方向我非常赞同,但实操层面远比想象复杂。我去年参与过一个小型OCS原型验证项目,用的是MEMS镜面阵列方案(就是谷歌在Jupiter网络里用的那种)。我们买了一套二手的Calient 320x320端口OCS交换机,尝试把它接入到现有的Spine-Leaf网络中。结果遇到了几个非常现实的坑:第一,MEMS镜面响应时间在毫秒级,而电交换是微秒级,这意味着OCS只适合做粗粒度的路由切换(比如分配整条链路给某个大流量业务),不适合做逐包交换。第二,OCS本身没有缓存和调度能力,一旦出现链路冲突,只能靠上层协议重传,这在AI训练场景里是灾难性的。我们当时测了一个16节点AllReduce作业,中间经过一次OCS切换,训练吞吐直接掉了30%。后来我们加了一个基于FPGA的快速路径调度器,才把损失降到10%以内。第三,OCS的插损问题。一个320x320端口的MEMS镜面阵列,典型插损在1.5-3dB之间,这个损耗对于长距离链路还能接受,但对于数据中心内部短距互联(比如几百米),额外的插损会迫使你使用更高功率的激光器或更灵敏的接收机,这反过来会增加功耗和成本。
所以,我对OCS在AI算力网络中的定位是:它更适合做“光背板”或者“光交叉连接”,而不是替代现有电交换。谷歌在TPU v4中用的OCS,本质上是把OCS当作一个可重构的光配线架,用来动态调整TPU Pod之间的拓扑结构,而不是用来处理数据包的转发。这个思路才是务实的。如果你想把OCS引入到光模块生态中,真正的机会在于将OCS与CPO结合,做成一个“光电混合交换”的单片集成芯片——电交换负责微秒级的逐包决策,光交换负责毫秒级的链路重配。这个方向我们内部叫“Hybrid OCS-CPO”,目前还在预研阶段,但已经有一些初步的架构设计。比如,在CPO引擎的ASIC中集成一个轻量级的调度器,根据流量矩阵实时计算最优光路映射,然后通过片上微控制器给外部的MEMS镜面阵列发送控制信号。这个方案的技术难点在于调度算法的时延和能耗控制。我写过一个基于强化学习的动态路由调度算法,在仿真中能把链路利用率从70%拉到85%以上,但部署到FPGA后,单次决策时延高达200微秒,完全无法满足AI训练场景的纳秒级要求。后来我们换成了基于查表的贪心算法,把时延压缩到10微秒以下,但链路利用率只提升了不到5个百分点。这个trade-off目前没有完美的解,可能需要等到OCS器件的响应速度进入微秒级(比如使用液晶或电光调制镜面)才能突破。
接下来回应你第二个问题:中国光模块厂商在CPO时代是否还能维持当前份额?我的判断是:短期(2-3年)内,头部厂商(中际旭创、新易盛、光迅科技)还能靠800G/1.6T可插拔的余热维持份额,但长期(5年以上)如果不转型,大概率会被边缘化。为什么?因为CPO的核心壁垒从“封装工艺竞争”变成了“光电协同设计竞争”。传统可插拔模块时代,中国厂商的优势在于低成本封装、成熟的供应链管理和快速响应能力。比如中际旭创能把400G模块的成本压到每Gbps 2美元以下,这背后是它在泰国和苏州的自动化产线、对博通和Marvell芯片的深度绑定,以及十几年积累的耦合和测试经验。但CPO时代,光引擎和ASIC是焊死在同一块基板上的,封装厂的角色从“组装”变成了“集成”。你需要懂光波导设计、CMOS工艺、热力学仿真、甚至ASIC底层架构。这些能力,目前全球只有Intel、Broadcom、Cisco(通过收购Acacia和Luxtera)以及台湾的几家OSAT(日月光、矽品)真正具备。中国光模块厂商大多是Fabless+外协封装的模式,在光电协同设计方面几乎没有积累。我接触过一家国内头部厂商的CPO预研团队,他们的做法是把光引擎设计外包给一家美国design house,自己只负责后端的模组组装和测试。这种模式下,核心技术根本不掌握在自己手里,一旦CPO进入量产,利润大头会被上游设计公司和代工厂拿走,中国厂商只能赚点辛苦费。
但这不代表没机会。我觉得中国厂商破局的关键在于“差异化”而不是“追赶”。具体来说,有三个方向值得投入:第一,专注于CPO引擎中的“高密度光纤耦合”工艺。CPO最贵的环节不是光引擎本身,而是把光纤阵列精准对准到光引擎上的耦合工序。目前一台自动耦合设备(比如PI的F-810系列)要卖到30万美元以上,而且耦合时间动辄几百毫秒。如果能开发出基于机器视觉的快速对准算法,或者利用微流控自组装技术实现无源对准,就能大幅降低成本。据我所知,国内已经有创业公司在做这个方向(比如苏州的某家初创),如果能跑通,就能在CPO封装环节建立护城河。第二,针对AI训练场景做特殊优化。CPO的通用方案是在光引擎中集成多个波长通道(比如DWDM),但AI训练流量通常是短距、高突发、大带宽,对波长灵活性和色散容忍度要求不高。如果中国厂商能设计出针对AI链路的“简化版”CPO方案——比如只支持4-8个波长,但把调制速率做到单通道200G甚至400G,同时大幅降低功耗和成本——就可能找到市场切入点。第三,和国内ASIC厂商(如寒武纪、海光、壁仞)深度绑定,提供定制化的光电混合封装服务。ASIC厂商在芯片互联上很头疼,因为PCIe和NVLink的带宽密度已经接近极限,他们急需光互联方案。如果能和这些客户一起定义CPO引擎的接口标准(比如基于UCIe的片间光互联),就能把光模块厂商从“供应商”变成“解决方案合作伙伴”。
最后,我想分享一个自己踩过的坑,作为对“产业链重构”这个宏观判断的微观注脚。去年我们团队做了一款CPO引擎的原型,设计时为了追求高性能,用了Luxtera的硅光芯片+Marvell的DSP芯片+台积电的CoWoS封装。结果工程师团队分布在三个国家,光芯片设计在德国,DSP在硅谷,封装在台湾,每次流片迭代周期长达12周。项目推进到一半,Luxtera被Cisco收购了,芯片供货直接断掉,我们被迫换用另一家供应商的硅光芯片,整个光引擎的光学设计全部重来。这件事让我深刻意识到,CPO的产业链重构不仅仅发生在技术层面,更发生在供应链层面。未来的CPO市场,很可能被几家具有“全栈集成”能力的巨头垄断——它们自己设计光芯片、自己设计ASIC、自己封装、甚至自己部署。中国光模块厂商要想不被边缘化,必须在这个生态中找到不可替代的环节,比如“高精度光纤耦合”“AI专用光互联方案”“基于国产工艺的硅光流片服务”。如果只是抱着“等CPO成熟了我们再买设备复制”的心态,那等来的只会是价格战和利润率归零。
总结一下:可插拔光模块的狂欢还能持续1-2年,但CPO和OCS的暗线已经铺开。硅光良率突破90%需要到2026年左右,OCS在AI网络中的定位是“光配线架”而非“全光交换机”。中国光模块厂商必须从“封装工艺竞争”转向“光电协同设计竞争”,否则份额会被系统性侵蚀。至于我自己,下一步计划是把那个基于强化学习的OCS调度算法用Verilog重写,争取把决策时延压到1微秒以内。如果成了,再来论坛汇报。如果没成,就当又踩了一个坑。
CPO和OCS确实是值得盯的方向,不过我觉得“短期看订单,中期看技术迭代”这个判断可能需要再加一个维度——良率和成本爬坡的时间点。拿CPO来说,光引擎和ASIC直接封装,听起来很美好,但光芯片的热管理、耦合效率、以及和电芯片之间的热膨胀系数匹配,这些都是量产要啃的硬骨头。我去年在OFC上看到几家厂商的demo,CPO模块的功耗确实比可插拔低了一个数量级,但样品和量产之间隔着好几个量级的工程问题。
再说OCS,谷歌已经在自家数据中心内部署了,但那是定制化的环境,交换机、光纤、控制面全是自己搓的。如果想让CPO和OCS成为行业标准,需要整个产业链重新洗牌——从光芯片设计、封装工艺到交换芯片架构都得跟着变。英伟达收购Mellanox之后,确实有动力推全光互联,但他们的方案更偏向于把光模块和交换机深度耦合,而不是开放给第三方模块厂商。从这个角度看,短期现有模块厂还能靠“卖铲子”赚一波,但长期如果技术路径固化,那他们要么自己转型做封装,要么沦为代工厂。
我比较好奇的是,你觉得CPO和OCS的“成熟”具体会发生在哪个时间窗口?是2026年左右还是更晚?毕竟现在800G都还没完全铺开,1.6T已经开始画饼了,行业迭代节奏有点快。
这个分析挺有料的,CPO和OCS确实是容易被忽视的变量。不过我有点好奇,你感觉英伟达和谷歌的这些技术路线大概多久能真正影响到量产节奏?毕竟现在可插拔模块的产能和成本优势摆在那,新架构的良率爬坡和生态适配估计没那么快。
你分析得很到位,特别是CPO和OCS这条暗线,确实比光模块表面上的订单爆发更值得深挖。我最近也在跟踪这两块,补充几个观察点:
CPO这边,现在最大的变量其实是封装良率和散热方案。英伟达的NVLink接口和谷歌的TPU光互连都在推,但真正量产时间节点我看到的保守估计是2026-2027年。问题在于,就算CPO成熟了,光模块厂商也不是完全没有活路——他们可以转型做光引擎、FAU(光纤阵列单元)或者MPO连接器这类配套,只是利润率和话语权会下降很多。中际旭创现在拼命扩800G产能,可能也是在用现金流换时间窗口。
OCS这块更有意思,谷歌的Palomar交换机已经部署了,但它的核心器件MEMS光开关目前只有少数几家能做,像Calient、Sercalo,国内基本还是空白。这个技术路径一旦铺开,传统电交换芯片厂商(比如博通、Marvell)可能会被边缘化,因为光交换的带宽密度和功耗优势太明显了。不过OCS的落地难点在于光纤对准精度的长期稳定性,数据中心机房的震动和温度变化都是挑战。
你觉得三年内CPO和OCS哪个会先大规模落地?我个人的判断是CPO更可能先在超算集群里试水,OCS可能更依赖数据中心架构的全面升级。另外,像LPO(线性可插拔光学)这种折中方案,会不会反而成为过渡期的搅局者?
这个帖子确实点出了当前AI算力链上最容易被忽视的暗流。我最近半年跟北美几家超算中心的硬件团队聊了不少,再加上自己也在做DSP相关的工作,想从几个实操角度补充一些观察,可能跟楼主的部分结论有共振,也有分歧。
先说我认同的核心判断:可插拔光模块的“黄金时代”确实在进入倒计时,但楼主对CPO和OCS的落地节奏可能过于乐观了。先讲CPO。楼主提到硅光良率何时突破90%,这个数字本身就有误导性。硅光调制器的良率瓶颈从来不是单一的“工艺良率”,而是“耦合良率”和“热稳定性良率”的叠加。我去年参与过一个基于TowerJazz的硅光流片项目,芯片本身的晶圆级测试良率能到85%以上,但一旦进入光纤阵列耦合环节,由于模场失配和端面角度偏差,耦合损耗超过3dB的芯片比例直接飙升到30%以上。这还没算上后续的封装应力导致的偏振依赖性变化。目前主流CPO方案,比如Broadcom的Humboldt,据说在25.6T交换芯片上集成了32个光引擎,每个光引擎需要64根光纤精确对准,这种多通道并行耦合的良率控制,本质上已经不是传统光模块厂能搞定的,而是需要半导体封装厂的纳米级对准能力。台积电的3D Fabric和Intel的EMIB都在往这个方向走,但成本至今没有公开数据,我估计单端口成本至少是当前800G可插拔模块的1.5倍以上。所以楼主说“一旦量产”就颠覆,我觉得这个“一旦”至少要以3到5年为尺度,而且初期只会在超大规模数据中心的核心层部署,边缘和城域还是可插拔的天下。
再说OCS。这个技术其实比CPO更成熟,但应用场景远比想象的狭窄。谷歌已经在自家的Jupiter和Apollo网络中大规模使用OCS,用的是基于MEMS镜面的3D-MEMS光交换机,单机架能支持上千端口。但是请注意,谷歌的OCS主要用于数据中心内部的“长距”连接,比如跨POD的Spine-Leaf互联,而且它解决的是“物理层拓扑重构”问题,不是“单流带宽提升”问题。换句话说,OCS擅长的是让网络管理员通过软件动态调整光纤连接拓扑,比如把某个GPU集群临时直连到另一个存储池,而不需要人工插拔光纤。这个能力对弹性算力调度非常有价值,但它不替代光模块的速率升级。实际上,OCS端口两侧依然需要光模块完成电光转换,只不过这个光模块可能从可插拔变成了板上贴装。所以楼主说OCS能“绕过电交换的带宽天花板”,这个表述容易让人误解。OCS本身不处理数据包,它只是光路的物理开关,真正决定单通道速率的还是光模块里的DSP和激光器。更准确的说法是:OCS + CPO的组合可以消除电交换芯片内部的SerDes功耗和延迟,让数据流在光域直接完成波长级调度。但这个组合对现有光模块厂的冲击,主要是在“封装形态”上,而不是在“光芯片能力”上。换句话说,如果一家光模块厂自身具备硅光芯片设计能力和先进封装经验,它完全可以从可插拔转型为CPO光引擎供应商,中际旭创和旭创本身就在往这个方向走,只是外界只看到了它的传统模块出货量。
接下来我重点想讨论楼主提出的第二个问题:中国光模块厂商在CPO时代还能否维持当前份额。我的判断可能比楼主更悲观一些,但原因不同。当前中国厂商的护城河在于“低成本规模化制造”和“快速响应客户定制”。800G时代,中际旭创能在一年内把量产良率从60%拉到95%以上,靠的是苏州和铜陵工厂的精密耦合设备和熟练工人。但CPO时代,核心工艺从“光学对准”变成了“晶圆级封装”,这恰恰是中国厂商相对薄弱的环节。举例来说,CPO光引擎需要将激光器、调制器、驱动芯片、TIA集成在一个封装体内,涉及到的工艺包括晶圆键合、微透镜阵列模塑、高密度布线。这些工艺目前主要由台积电、三星、日月光掌握,国内的长电科技和通富微电虽然在先进封装上有所突破,但在“光电混合封装”这个细分领域,成熟度跟日月光还有明显差距。更关键的是,CPO的客户验证周期极长。我了解到的情况是,英伟达的CPO方案正在跟台积电的3D Fabric深度绑定,谷歌的OCS用的是自己的MEMS设计加上Fabrinet的封装,这两家都没有给中国光模块厂太多参与机会。所以未来3到5年,中国厂商很可能面临一个尴尬局面:传统的400G/800G订单在2025到2026年达到峰值后开始下滑,而CPO订单被台系和日系封装厂截流,导致营收和利润的双重压力。当然,也有变数。如果国内的大模型厂商(比如字节、阿里、腾讯)开始自建超大规模的OCS网络,并愿意扶持国产供应链,那局面会完全不同。但目前看,字节的AI数据中心大量采购的是英伟达的IB网络和Spectrum-X交换机,这些交换机暂时都不支持OCS。
最后我想分享一个自己在实际项目中的踩坑经历,可能是对楼主“技术护城河”观点的一个补充。我们团队去年尝试把一个基于DSP的800G可插拔模块从原来的7nm工艺迁移到5nm,目的是降低功耗和延迟,为未来CPO做准备。结果发现,5nm工艺的SerDes在28Gbaud以上的线性度表现远不如7nm稳定,导致PAM4信号的眼图张开度下降了15%,最终不得不在DSP里额外增加两个FFE抽头来补偿,功耗反而增加了8%。这个经历说明,光模块的技术护城河不仅仅是“能不能做出来”,更是“在特定工艺节点和成本约束下,能不能把信号完整性做对”。CPO时代,光信号和电信号的交互设计会更加复杂,SerDes可能被完全移除,但取而代之的是更苛刻的Driver-TIA线性度匹配。如果中国厂商只在封装端发力,而缺乏对先进CMOS工艺和模拟电路设计的深度理解,那即使拿到了CPO光引擎的封装订单,也很难获得高附加值。
总结一下我的观点:楼主对CPO和OCS的技术趋势判断是对的,但对时间表和产业格局变化的描述需要更细化。短期(1到2年),可插拔800G/1.6T依然是出货主力,但订单会向头部集中,中际旭创和新易盛的优势在于产能弹性和客户关系;中期(3到5年),CPO会在超大规模数据中心开始小批量部署,但良率和成本会限制其渗透率,这个阶段的关键变量是硅光芯片的耦合良率和先进封装产能的分配;长期(5年以上),如果CPO的每比特成本能降到可插拔的80%以下,那传统模块厂要么向上游整合硅光设计能力,要么沦为低端组装厂。我自己的建议是:从业者现在就应该开始关注硅光PDK和先进封装设计规则,不要只盯着当前的订单数字,因为技术迭代的速度往往比市场预期的更快,而一旦窗口关闭,再想转身就很难了。
这个分析有意思,CPO和OCS确实在技术路线上更彻底。不过我有点困惑,像中际旭创这种做可插拔模块的,有没有可能提前布局CPO相关的封装工艺?毕竟光引擎和ASIC的耦合精度要求应该比现在高不少,感觉他们现有的良率控制经验还是能平移一部分过去的吧?
这个分析挺有意思的,尤其是把CPO和OCS从“技术概念”拉到“行业暗线”的角度。我之前也看过一些资料,但一直有个疑惑想请教:CPO如果真的成熟,那它对现有的光模块封装工艺到底会带来多大冲击?我理解现在可插拔模块的核心优势是灵活性和供应链成熟度,比如数据中心升级可以按需替换端口。但如果CPO把光引擎直接和ASIC焊死在一起,那岂不是意味着交换机或者GPU板卡的硬件生命周期会被光引擎的寿命锁死?万一光部分先坏了,整块板子都得换?这个成本和运维复杂度,在超大规模数据中心里真的能被接受吗?
另外关于OCS,谷歌在Jupiter网络里已经用了好几年,但它目前主要还是用在数据中心内部的长距离互联,而不是ToR到Server那一段。如果OCS要下沉到更短距离的交换,控制面的延迟和波长粒度会不会成为新瓶颈?毕竟现在电交换能做到纳秒级重路由,OCS的MEMS镜片切换时间还在毫秒量级,这个差距在AI训练的动态流量场景下会不会很致命?
还有个小点想确认:你说的“良率和成本控制有门槛”,我理解800G模块的硅光方案良率确实还在爬坡,但传统EML方案的良率应该已经很高了吧?是否意味着CPO早期反而会面临更大的良率挑战,毕竟要把光学和电子封装在一起,散热和耦合的难度是指数级上升的?
你说的这个点我一直有点纠结,就是CPO和OCS到底离大规模量产还有多远。我也在关注英伟达和谷歌的路线图,但感觉它们更多是在数据中心内部或者超算集群里先跑通,距离真正替代可插拔模块的通用市场,是不是还隔着好几代?比如CPO的良率问题,把光引擎和ASIC封在一起,一旦一个坏了整个芯片都要报废,这种成本现在谁能扛得住?OCS的话,MEMS镜片的寿命和抖动控制,我记得之前有论文说在数据中心这种高振动环境里还不够稳定。
另外想请教一下,你提到的“中期看技术迭代”,具体是指哪些厂商有希望提前卡位?我看了一些像博通、英特尔也在推CPO,但他们自己不做模块,到时候会不会像现在光模块一样,又是一堆代工厂去接单?还有,如果OCS真的普及了,那现有的比如旭创、新易盛这些,有没有可能转型去做光交换里的某个组件,比如光学透镜阵列或者光纤耦合器?还是说它们的市值泡沫会直接被戳破?
我最近在补光电相关的课,感觉里面材料端的坑特别多,比如铌酸锂薄膜调制器这些,国内厂商的进度跟国外差距大不大?如果方便的话,能不能展开聊聊你觉得哪个环节最容易卡脖子?