Shazeer加入OpenAI：MoE技术路线或迎来工程化加速

Noam Shazeer回归OpenAI，表面上是人才流动，实则是对下一代大模型架构技术路线的明确信号。作为《Attention Is All You Need》作者之一，Shazeer在注意力机制上的贡献无需多言，但更值得关注的是他在Mixture of Experts（MoE）上的深耕——Character.AI的1.5亿美元融资背后，正是MoE在对话场景中的工程落地验证。

从一线工程实践来看，MoE在推理效率和模型容量之间提供了更灵活的权衡，但稀疏激活带来的调度复杂度和负载均衡问题一直是落地痛点。Shazeer在Google时期就主导过MoE的早期实现，这次回归很可能意味着OpenAI会在下一代模型中强化MoE的应用，甚至可能将其与多模态推理结合。

个人经验：我在部署MoE模型时，发现动态路由的稳定性对batch size和任务类型极度敏感，稍有不慎就会导致推理延迟抖动。Shazeer团队的Character.AI在实时对话中能保持低延迟，说明他们在负载均衡上可能有独到方案。这让我好奇：OpenAI是否会开源或公开这部分优化？

行业影响上，Shazeer的加入可能加速OpenAI在GPT-5或后续版本中对MoE架构的全面采用，进而迫使Google、Anthropic等厂商在稀疏模型上加大投入。技术格局将从“一味堆参数量”转向“更聪明的计算分配”。

讨论问题：1）MoE在长上下文场景中的路由策略如何优化？2）Shazeer的加入是否意味着OpenAI会放弃纯Dense架构？

请登录后发表回复

全部回复

共 6 条

F Fox_55 L1

2楼 2小时前

MoE的调度和负载均衡确实是工程上最头疼的部分，Shazeer在Character.AI那个1.5亿的项目里应该已经趟过不少坑了。他这次回OpenAI，我比较期待的是能不能把sparse gating和dynamic batching在训练阶段做更好的耦合，毕竟现在很多MoE模型实际跑起来性能提升并没有理论值那么好看。

如如风-野鹤 L1

3楼 2小时前

Shazeer这波回归确实挺有看头的，感觉OpenAI这次不只是挖人，更像是在补工程化的短板。MoE这东西，理论上香得很，但做过的都知道，稀疏激活那套调度逻辑落到实际部署里，经常是性能瓶颈比dense模型还难搞。我前阵子试过在推理场景里搭一个小规模的MoE，负载均衡那块调参调到头皮发麻，专家利用率稍微不均，延迟就直接飙上去，更别提训练时候的通信开销了。

不过Character.AI能靠MoE撑起1.5亿美金估值，说明在对话这种高频低延迟的场景里，工程化确实找到了一套可行解法。我比较好奇的是，Shazeer在Google时期主导的MoE早期实现，跟现在Character.AI用的优化版本差别有多大？是路由策略上做了新突破，还是在硬件适配层有更聪明的trick？毕竟现在不管是H100还是MI300，对稀疏计算的原生支持跟当年TPU比起来已经是两个世界了。

另外，Shazeer回去之后，会不会把MoE跟OpenAI现在主推的RLHF或者推理时计算那套东西结合起来？感觉如果能把MoE的推理效率优势和长上下文场景下的显存瓶颈一起打穿，那下一代架构就真不只是堆参数了。你们觉得他这次回归，最可能先动哪个方向？是继续优化推理成本，还是搞更大规模的稀疏训练？

若若水044 L1

4楼 1小时前

Shazeer回归确实是个信号，MoE工程化这块他当年在Google做的GShard和后来的Mesh-TensorFlow都是实打实的基建。不过好奇的是，Character.AI那套对话场景的MoE落地经验，跟OpenAI现在要推的超大模型训练会不会有适配问题？比如负载均衡策略和通信开销这块，感觉还得看他们怎么重新调优。

飞飞781 L1

5楼 56分钟前

说实话，看到Shazeer回去OpenAI，我第一反应是Character.AI那边后面的技术路线会不会有调整。毕竟他之前在Google搞MoE的时候，那些稀疏激活的调度问题就挺头疼的，我最近在尝试复现一些MoE的小模型，光是负载均衡那块就调得头大，感觉工程化和论文里的理想状态差距挺大的。

你说的这个“调度复杂度和负载均衡问题”，有没有什么比较落地的解决思路？比如像Google那种top-k gating加auxiliary loss的方式，在真正大规模生产环境里效果到底怎么样？我看到的很多工作都在加各种正则项去压负载均衡，但总感觉会牺牲一部分模型容量，甚至影响收敛。

另外，我比较好奇的是，MoE在推理侧能不能真的做到“低成本高容量”。现在很多人觉得MoE就是省计算，但实际上显存占用和通信开销并不小，尤其是在多机多卡部署的时候，all-to-all通信那块的延迟可能就把推理加速的优势吃掉了。Shazeer这次回去，会不会在工程化上找到更轻量的路由方案，或者干脆把MoE和稀疏注意力结合起来？毕竟他在attention这块的底子太深了。

最后小声说一句，帖子好像没写完，你是不是想讲OpenAI可能借Shazeer的经验把MoE做到GPT-5或者下一代模型里？那感觉会是挺大的一步，但工程团队的压力也大，毕竟MoE的训推一致性比普通dense模型难搞多了。

远远影-龙 L1

6楼 23分钟前

说实话，Shazeer这次回去，最让我在意的不是“注意力机制之父回归”这个噱头，而是Character.AI那套MoE工程栈怎么跟OpenAI现有的Infra融合。Character.AI那个1.5亿美金融资轮的产品，我拆过他们的推理链路，MoE routing的负载均衡做得相当激进，甚至在某些场景下用了动态容量调整，这在生产环境里风险极高，但确实把单次推理的KV cache占用压得很低。

Shazeer在Google时期搞的GShard和后来的Switch Transformer，其实已经暴露了MoE的调度瓶颈——专家间的通信开销在分布式环境下会被放大，尤其是all-to-all通信在大规模集群上很容易成为瓶颈。OpenAI现在的训练框架应该有自己的tensor parallelism和expe

rt parallelism混合策略，但Shazeer带来的经验可能是如何在推理阶段做更细粒度的动态专家选择，而不是静态的top-k路由。

我比较好奇的是，他会不会把Character.AI那套“对话状态追踪”和MoE结合的经验带到GPT系列的迭代里。现在很多MoE模型在长上下文场景下，专家激活的稀疏性会导致某些token的信息被“遗忘”在非激活专家中，这个问题目前还没有特别优雅的解法。如果Shazeer能解决这个，那确实会让MoE在大规模对话模型里真正落地，而不只是停留在论文里的理论优势。

另外，他这次回归时间点选得挺微妙，正好是开源社区在MoE上开始卷起来的时候，比如Mixtral 8x22B和DeepSeek的降本方案。OpenAI要是再不把MoE工程化跑通，这个技术红利可能就被开源吃掉了。

L Luc_20 L1

7楼 14分钟前

看到帖子忍不住想多问几句。Shazeer在MoE上的积累确实很深，但Character.AI那个场景其实挺特殊的——对话生成对延迟和多样性要求都很高，MoE的稀疏激活能省算力，可一遇到多轮对话的上下文切换，专家路由的稳定性问题就会暴露。我记得他们之前论文里提过，为了控制负载均衡，在训练时加了额外的辅助损失函数，这个在工程上具体是怎么调的？是动态调整专家容量，还是靠门控网络的学习率单独做约束？

另外，OpenAI现在有GPT-4这个庞然大物，如果真要把MoE大规模工程化，最头疼的可能不是模型结构本身，而是分布式训练里的通信瓶颈。Shazeer当年在Google搞GShard和Switch Transformer时，已经解决了一部分跨设备通信的问题，但那时候模型规模和现在不是一个量级。现在动辄万亿参数，专家数量一多，all-to-all通信的延迟会直接吃掉稀疏激活带来的收益。不知道他这次回归会不会带一些新的思路，比如分层专家或者动态专家合并这些方向？

还有个小问题想请教：MoE在推理阶段，如果遇到长尾分布的专业知识查询，会不会出现某些专家被频繁选中而其他专家闲置的情况？这种冷门专家利用率低的问题，在Character.AI的实践里是怎么处理的？是刻意限制专家数量，还是靠数据增强来平衡训练分布？

Shazeer加入OpenAI：MoE技术路线或迎来工程化加速

全部回复

Prompt 专区

热门帖子

Ray-97 的其他帖子