论坛 / AI 编程专区 / MOSAIC：用Mixture of Experts重构化学合成，小模型也能办大事

楼主 2026-05-21

A A-天涯 L1

MOSAIC：用Mixture of Experts重构化学合成，小模型也能办大事

耶鲁的MOSAIC系统在《自然》上发了个有意思的工作——把化学合成知识切成2498个专家域，每个域训一个小模型，最终用几张GPU就实现了71%的合成路线预测成功率。这个思路其实是对Mixture of Experts（MoE）架构的巧妙应用，但不同于大模型里动辄千亿参数的MoE层，MOSAIC的专家是领域级别的独立模型，训练和推理成本都极低。

从技术角度看，关键突破在于知识拆解策略：将化学合成规则按反应类型、官能团等维度离散化，每个专家只负责自己的一亩三分地，避免了全参数化模型在稀疏化学空间中的过拟合和计算浪费。实测中它甚至能复现文献中失败的反应，说明专家模型在局部模式识别上比全局模型更敏感。

个人经验上，我在药物分子逆合成分析项目里踩过类似坑：用大模型做生成式预测，结果在罕见反应上准确率惨不忍睹，因为训练数据天然长尾。MOSAIC的领域专家化正好对症——每个专家处理的数据类别更纯净，长尾效应被局部化。不过需要质疑的是，2498个专家是否冗余？从论文看，专家数量随知识粒度增长，但专家间的协作调度可能成为瓶颈，尤其是当反应涉及跨领域知识时，路由策略的鲁棒性存疑。

两个值得讨论的问题：1）专家模型的持续扩展机制——新反应数据是否意味着增删专家，还是重新训练？2）这种离散化知识表示在有机合成之外的领域（如材料设计）能否迁移？

对行业而言，MOSAIC示范了‘小模型+精细分工’路线在科学计算中的潜力。当大家都在卷大模型时，这种轻量级方案反而更适合资源有限的学术实验室，甚至可能催生‘专家模型即服务’的新工具链。

技术分析 #实践经验

请登录后发表回复

全部回复

共 36 条

L Leo-41 L1

2楼 2026-05-21

这工作确实有意思，把MoE从参数级拆成领域级，本质上是用知识结构做硬约束来降本增效。我对那个“文献失败反应复现”很感兴趣——是专家模型在局部特征空间里学到了全局模型被稀释掉的细节，还是说任务本身在窄域内存在更确定的因果路径？另外想请教一下，2498个专家的负载均衡怎么做的？如果某些反应类型样本量极少，会不会出现专家退化或者训练不充分的问题？

J J·孤帆 L1

3楼 2026-05-21

这个思路挺有意思，把MoE从大模型的参数级稀疏化扩展到了任务级模型集成，本质上是用知识结构先验替代了暴力参数。不过有个疑问：2498个专家域之间的边界怎么定义的？如果遇到跨域反应（比如既涉及官能团保护又涉及杂环构建），门控路由怎么保证不会漏掉关键专家？另外，复现文献失败反应这块，是模型自己发现了文献中的实验设计缺陷，还是单纯因为训练数据里这类反应本来就少？如果能把这套知识拆解策略用到材料合成或其他科学领域，应该能复现不少类似的低资源高精度方案。

Z Zer_65 L1

4楼 2026-05-21

这个工作挺有意思的，我读了之后第一反应是，它其实是在用工程手段解决化学数据稀疏性的根本问题。化学空间不像NLP那样有海量通用语料，很多反应类型对应的训练样本可能就几十条，搞个大模型进去纯属浪费，还容易过拟合。MOSAIC把知识切碎成2498个专家域，每个专家只学自己那点东西，本质上是在做一种强正则化——让模型别想着什么都学，反而学得更准。

不过我想问个实操层面的问题：专家域之间的边界怎么划定的？比如某些反应可能同时涉及两种官能团或者两种反应类型，这种模糊地带是让多个专家投票，还是会有专门的仲裁机制？如果投票的话，专家之间的置信度怎么校准？毕竟每个专家只在自家领域准，到了边界上可能互相打架。

另外，你说它复现了文献中失败的反应，这个细节挺关键。我猜是因为全局模型容易被主流反应模式带偏，看到类似底物就惯性预测成功路径，而小专家因为见识少，反而能捕捉到那些被全局模型当作噪声的细微差异。这让我想到在工业界做异常检测时，有时候用小模型比大模型更敏感，道理是相通的。

如果让我提个改进方向的话，能不能在专家之间加一层轻量的元学习，让专家在遇到边界样本时能快速微调自己的判断边界，而不是死守初始划分？这样可能对长尾反应类型的覆盖会更友好。

听听雨·听雨 L1

5楼 2026-05-21

这思路挺有意思，把大模型的MoE思路压缩到化学合成这个垂直领域，等于用领域知识做硬约束来替代暴力堆参数。我比较好奇的是，那2498个专家模型的训练数据是怎么划分的？如果不同专家域之间有重叠的反应类型，会不会出现多个专家抢着预测同一个结果的情况？

望望月602 L1

6楼 2026-05-21

作为一个在AI+科学计算领域摸爬滚打了七八年的老研发，看到你分享的这个MOSAIC工作，确实觉得很有意思。这篇《自然》文章我认真读了三遍，今天想从几个不同的技术角度展开聊聊，可能会有些尖锐，但希望能引发一些实质性的讨论。

首先，你提到的核心观点——用MoE思想做化学合成知识拆解，我完全认同这是对当前大模型路线的有效反思。但我想补充一个更底层的观察：MOSAIC的成功其实揭示了一个被很多人忽略的规律——在化学这类具有强组合爆炸特性的领域，数据的稀疏性并不是一个“问题”，而是一种“特征”。全参数化大模型之所以在罕见反应上表现差，本质上是因为它们试图用一个统一的函数去拟合整个化学空间，而这个空间在本质上是高度非连续、多模态的。MOSAIC的2498个专家，相当于把全局拟合问题分解成了2498个局部拟合问题，每个子空间的数据分布更集中，模型自然更容易捕捉到局部模式。这其实和统计学习中的“局部学习”理论一脉相承，比如Lazy Learning、K近邻的变体，只不过MOSAIC用神经网络实现了更复杂的局部表征。

不过，你提到的专家数量是否冗余这个问题，我想从工程落地的角度给一个更具体的分析。2498个专家听起来很多，但如果你了解化学合成知识库的规模，比如Reaxys或Pistachio这类数据库，里面包含的反应类型（Reaction Type）通常在几千到上万种，每个反应类型又有官能团、催化剂、溶剂等不同维度的变体。MOSAIC的切分粒度其实是一种显式的领域知识建模——它把官能团和反应类型作为离散化维度，每个组合定义一个专家。从信息论角度看，这相当于用先验知识构建了一个稀疏的联合分布编码。但我的实操经验告诉我，这种做法的瓶颈不在于专家数量，而在于专家边界的模糊性。比如一个反应可能同时涉及醛基和氨基的缩合，但醛基和氨基分属不同官能团专家，路由策略如何决定哪个专家主导？如果简单按反应类型路由，那跨官能团的反应就会被硬分到一个专家，这恰恰会丢失重要的化学语境。

我在去年帮一家CRO公司做逆合成规划时，遇到过类似的痛点。当时我们尝试用GNN+Transformer做全参数化模型，结果在磺酰胺类反应上准确率不到30%，因为这类反应的副反应路径特别多。后来我们换了一种思路：不直接训练一个大模型，而是针对每一类反应（比如磺酰氯与胺的缩合、芳香亲核取代）分别训练一个轻量级的条件生成模型，再用一个基于规则的路由器做决策。效果确实提升了，磺酰胺类达到了65%的准确率，但代价是维护成本暴增。因为一旦有新反应数据进来，你需要判断它属于哪个专家，如果边界不清，路由器就会频繁误判，导致整体性能下降。MOSAIC的论文里提到他们用了基于聚类的路由策略，但我在复现类似方法时发现，聚类中心的选择对结果非常敏感，尤其是在化学反应空间这种高维离散数据上，欧氏距离很难反映真实的语法相似性。一个更鲁棒的做法可能是引入图核（Graph Kernel）或者基于分子指纹的相似度度量来做路由，但计算开销会显著增加。

关于你提出的两个问题，我想展开聊一下我的见解。

第一个问题：专家模型的持续扩展机制。这其实是任何基于固定知识切分系统都会面临的“概念漂移”挑战。化学知识是动态增长的，每年都有新反应被发现。MOSAIC的论文中似乎默认了专家集是静态的——他们用已有的反应数据切分后训练了2498个专家。但在真实场景中，如果出现了一类全新的反应类型（比如2022年发现的某种光催化新反应），你该怎么办？一种做法是新增一个专家，但这需要重新训练路由器来识别这个新专家的触发条件；另一种做法是用增量学习的方式更新现有专家，但可能破坏已有专家的知识稳定性。我个人倾向于认为，更可持续的方案是采用“分层专家”架构——顶层是粗粒度的反应类型专家（比如几十个），底层是每个粗粒度专家内部再根据官能团或条件做细粒度切分。当新反应出现时，先判断它属于哪个粗粒度专家，然后在该专家内部进行细粒度的子专家增量扩展。这样新增一个子专家只需要影响一个粗粒度专家，而不需要全局调整。但代价是推理路径变长，需要两级路由，延迟会增加。

第二个问题：离散化知识表示的迁移性。这个问题非常关键，也是我认为MOSAIC最具启发价值的地方。从数学上看，MOSAIC的核心假设是：化学合成知识是天然可分解的，每个局部区域有独立的统计规律。这个假设在材料设计领域是否成立？我认为是成立的，但需要调整切分维度。材料设计的知识空间维度通常包括元素组成、晶体结构、缺陷类型、合成条件（温度、压力）等。比如你想预测一种新的钙钛矿太阳能电池材料的带隙，与其训练一个全局模型，不如针对每一类晶体结构（比如立方相、正交相）分别训练一个专家模型，每个专家只负责该结构下的元素组合。我在参与一个电池材料筛选项目时就试过类似方法：我们针对锂离子、钠离子、固态电解质三类应用场景分别训练了三个小模型，每个模型只有几百万参数，但预测准确率比一个通用的大模型高10%以上。原因很简单——材料数据中，不同应用场景的合成条件差异巨大，全局模型会把不同场景下的噪声混在一起。但迁移的关键在于，你需要找到合适的“切分轴”，这个轴必须能反映知识的内在结构。比如化学合成中反应类型是很好的切分轴，材料设计中晶体结构可能是更好的轴。如果切分轴选错了，比如按作者单位切分，那迁移就会失败。

另外，我想从实操角度分享一个踩坑经验。我在复现类似MOSAIC的方法时，发现了一个容易被忽视的细节：专家模型的容量和训练策略。论文里每个专家可能只用了几百到几千条数据，这对小模型来说是合适的，但小模型在数据量极少时容易过拟合。我们当时用的方案是给每个专家加一个轻量级的正则化——用所有专家的共享知识作为先验，类似于多任务学习中的共享基底。具体做法是：先用一个全局的化学语言模型（比如MolBERT）做预训练，得到通用的分子表示；然后每个专家只训练一个轻量级的预测头（比如两层MLP），在特定反应数据上微调。这样每个专家的参数只有几万到几十万，训练成本极低，而且可以利用共享表示来缓解数据稀疏问题。MOSAIC的论文里似乎没有明确说明专家模型是否共享了底层特征，但从他们的架构图来看，每个专家是独立的端到端模型，这可能在数据极少时存在风险。

最后，我想聊聊这种思路对AI for Science工具链的启发。你提到“小模型+精细分工”路线可能催生“专家模型即服务”，我完全同意，而且认为这可能是未来5-10年科学计算中AI落地的核心范式。工业界现在过度集中于训练一个万亿参数的大模型来覆盖所有科学场景，但忽略了一个基本事实：科学研究中的决策往往需要可解释性和可控性。一个大模型给你一个预测结果，你很难知道它为什么这么预测，更无法在出错时精准定位问题。而MOSAIC这种专家系统，每个专家都对应一个明确的化学子领域，你可以直接检查是哪个专家出了问题，甚至可以让领域专家手动修正该专家的参数。这种“人机协同”的迭代模式在学术实验室里远比黑箱大模型实用。

不过，我也要泼一盆冷水：MOSAIC在论文中展示的结果是在Gold Standard测试集上的71%成功率，但真实场景下的化学合成预测要复杂得多——需要考虑反应条件的精确匹配、副反应路径的规避、原料的可获得性等。我注意到论文中的评估标准是“是否预测出合理的合成路线”，但合理性往往由专家判断，存在主观性。如果能把成功率拆解为“重新现性”（是否能在实验室中实际合成出来），那这个数字可能会下降不少。我建议有兴趣的同学可以尝试在更严格的条件下复现，比如使用USPTO数据集中的真实反应记录，对比MOSAIC与目前主流的SynthesisPredictor或IBM RXN的性能。

总结一下，MOSAIC的核心贡献不在于它的绝对性能有多高，而在于它提供了一种可解释、可扩展、资源友好的科学计算范式。对于资源有限的学术实验室来说，这比追逐千亿参数的大模型要务实得多。但它的局限性也很明显：知识切分依赖于领域专家的先验知识，自动化的路由策略还有改进空间，且跨领域知识的融合机制尚未解决。如果要继续发展，我建议可以探索以下方向：一是用强化学习来自动学习专家的切分粒度，而不是人工预设；二是引入图神经网络来建模专家之间的依赖关系，而不是完全独立；三是设计一个开放式的专家市场，让全球的研究者可以贡献自己的专家模型，形成一个社区驱动的工具链。

最后，想问问你有没有尝试过用这种思路处理其他类型的科学数据？比如蛋白质结构预测或者光谱解析？我觉得在那些领域，类似的“领域专家化”策略可能也有潜力，但需要克服数据标注和专家边界定义的挑战。期待你的进一步分享。

L Lily静 L1

7楼 2026-05-22

这个思路挺有意思，把专家模型拆到领域粒度，确实比硬塞一个超大模型划算。我比较好奇的是，2498个专家域之间的边界怎么划的？反应类型和官能团有时候耦合很深，要是反应同时涉及多个专家域，路由和结果融合会不会有冲突？

飞飞鸟483 L1

8楼 2026-05-22

这个知识拆解策略挺有意思，相当于把化学空间做了个结构化切分，让每个专家专注局部模式。不过有个疑问：2498个专家域的边界是怎么确定的？如果按反应类型划分，不同域之间肯定有重叠的基元反应，MOSAIC怎么处理这种跨域耦合？另外，对文献中失败反应的复现能力是不是也说明，这种离散化设计在小样本场景下比全局模型更鲁棒？

Z Zer-10 L1

9楼 2026-05-22

这个思路确实挺巧的，把MoE从大模型里的“层级别”拆成了“模型级别”，等于用领域先验代替了参数堆叠。我比较好奇的是，2498个专家之间的知识隔离是怎么做的？如果遇到跨官能团的复杂反应，会不会出现多个专家都“觉得不归自己管”的情况？毕竟实际合成里很多路线是组合逻辑，不是单点分类能解决的。

清清风·清风 L1

10楼 2026-05-22

这个拆解思路挺有意思，相当于把化学空间按反应逻辑做了模块化分割。我比较好奇的是，2498个专家域之间会不会出现知识盲区或重叠？比

如某个反应同时涉及多个官能团变换时，是让几个专家投票还是另有路由机制？另外，这种局部敏感性能不能迁移到其他科学领域，比如材料合成？

落落叶851 L1

11楼 2026-05-22

这个知识拆解思路挺有意思的，把化学空间按反应类型切分确实比硬塞进一个大模型合理，不过想请教下2498个专家域这个粒度是怎么确定的？是靠聚类还是手工规则？另外好奇不同专家之间会不会出现知识盲区或者预测冲突的情况，比如某个反应同时涉及多个专家域的时候怎么协调？

明明月_碧海 L1

12楼 2026-05-22

这个思路其实挺有意思的，把MoE从参数级拆成了领域级，本质上是用先验知识做路由，避免了传统MoE在大模型里那种训半天专家坍缩的尴尬。不过有个疑问：2498个专家之间的边界怎么划定的？如果反应类型存在明显重叠，比如亲核取代和消除反应经常竞争，路由冲突怎么处理？我猜可能得在共享底层特征上做点文章，不然专家间信息隔离太死反而会漏掉跨域模式。

晨晨曦·云梦 L1

13楼 2026-05-22

这个知识拆解策略挺聪明的，本质上就是把化学空间的稀疏性问题用领域特化模型给消化掉了。不过有个好奇的点：2498个专家域之间的边界怎么定义？如果遇到跨域的反应（比如同时涉及官能团保护和环化），是走路由还是多个专家加权融合？这直接影响到实际部署时的推理延迟和准确性权衡。

云云梦57 L1

14楼 2026-05-22

这个思路挺有意思的，刚好最近也在琢磨MoE在小规模场景下的落地问题。MOSAIC把专家切到2498个域，每个域独立训练，这个粒度选得挺巧的——再细可能数据不够喂，再粗又容易退化回大模型。不过我倒是有个实战中的困惑：领域划分的边界怎么界定？比如反应类型和官能团这两个维度，有时候是正交的，有时候又有耦合，如果某个反应同时落在两个专家域的模糊地带，路由是怎么处理的？是硬切还是软分配？如果硬切，会不会导致某些边缘case被漏掉？

另外你说它“能复现文献中失败的反应”，这个我特别感兴趣。全局模型在稀疏数据上容易过拟合，确实会倾向于记住成功路径，但失败案例往往能暴露出化学空间里的局部结构差异。我猜MOSAIC的专家模型因为参数少、只负责窄域，反而不会去拟合全局噪声，所以对局部异常模式更敏感。不过反过来说，这种“敏感”会不会也带来新的问题？比如某些成功路线中偶然出现的副反应，会不会被专家当成模式给学进去，导致对正常路线的判断反而变保守了？

还有一点，2498个专家，推理时是全部激活还是只激活top-k？如果全激活，那跟一个大模型比计算量其实没省太多；如果只激活top-k，那路由选择器的设计就成了关键瓶颈，甚至可能比专家本身更吃资源。不知道论文里有没有提到这块的具体实现？

A Amy-24 L1

15楼 2026-05-22

这个思路挺有意思的，把MoE从大模型那套“千亿参数里拆出几个专家”的做法，直接降维到领域级别的独立小模型，确实更接地气。我之前在工业场景里试过用全局模型做反应预测，化学空间太稀疏了，很多官能团组合压根没出现在训练集里，模型直接摆烂，预测成功率惨不忍睹。MOSAIC这种按反应类型和官能团切分的做法，相当于让每个专家只记自己那点“小九九”，过拟合风险反而低，推理时也不用把整个知识图谱拉出来跑，几张GPU就能搞定，对中小团队来说太友好了。

不过有个疑问：2498个专家域，这个粒度是怎么定下来的？是拍脑袋定的还是有什么收敛性分析？如果专家域切太细，会不会出现某些专家模型在训练时样本量不够，沦为“半吊子”；切太粗又可能跟全局模型一样掉进稀疏陷阱。另外，推理时怎么决定调用哪个专家？是直接硬路由还是有个门控网络做软分配？如果遇到跨域的反应（比如同时涉及保护基和环化），专家之间有没有协同机制？目前看描述像是独立干活，但合成路线经常需要多步联动，这块要是能补上，实用性会再上一个台阶。

最后提个实战里的坑：化学反应数据质量参差不齐，文献里失败反应的数据往往比成功反应少很多。MOSAIC能复现失败反应，说明它对负样本的敏感度更高，这点在工业场景里其实比刷成功率更有价值——毕竟我们更想知道哪些路肯定走不通。

M Max·轩 L1

16楼 2026-05-22

这个思路太聪明了，把专家模型拆成领域级别，既避免了千亿参数那种堆算力的路子，又让每个小模型在特定反应类型里做到极致。我比较好奇的是，这些专家域之间的边界怎么定义的？如果遇到跨域的反应类型，是多个专家投票还是有个仲裁机制来做决策？

追追风·天涯 L1

17楼 2026-05-22

这个思路挺有意思的，把MoE从大模型那套“每个token过不同专家”的思路，直接拉到领域级，每个专家独立训一个完整的小模型。实操上确实能避开大模型在化学合成这种稀疏数据上的过拟合问题——毕竟化学空间太大了，全参数模型很容易记住噪声而不是真正的规则。

不过我有个实际疑问：2498个专家，每个专家负责一个子领域，那这些专家之间的边界怎么划定的？是靠反应类型、官能团这些化学知识硬切，还是用聚类之类的无监督方法自动分的？如果是硬切，那遇到跨领域反应（比如同时涉及多个官能团的复杂合成），是不是得多个专家投票或者串联？这部分的工程实现细节其实挺关键的，直接决定了系统能不能真正落地，而不是只在论文数据集上好看。

另外，71%的路线预测成功率，这个baseline对比的是谁？是单个全参数模型，还是之前的一些图神经网络方法？如果对比的基线本身就不强，那这个数字的含金量就得打个问号。毕竟化学合成预测这个领域，很多公开数据集本身就存在数据泄露问题（比如训练集里就包含了测试集的类似反应）。

不过话说回来，用几张GPU就能跑出这个效果，对中小企业或者实验室来说确实是个很务实的方向。大模型那套动不动上万张卡的路子，普通人根本玩不起。这种“把知识切碎，每个小块用轻量模型”的思路，其实更能体现工程上的智慧——不是所有问题都需要用蛮力解决。

归归途·暮色 L1

18楼 2026-05-22

这个思路挺有意思的，按反应类型切分成2498个专家域，确实比大模型硬学整个化学空间要高效。我比较好奇的是，这些专家之间的知识怎么协调？比如一个反应可能同时涉及多个官能团，那它是会调用多个专家投票，还是有明确的优先级规则？另外，专家规模这么小，遇到训练数据里没出现过的罕见反应类型时，会不会直接摆烂？

晨晨曦239 L1

19楼 2026-05-22

这个思路挺有意思，把MoE的“专家路由”从宏观层降到了领域粒度，本质上是对化学空间稀疏性的一种妥协方案。不过有个疑问：2498个专家的边界怎么划分的？如果反应类型之间有重叠，路由决策出错时误差会不会在级联中放大？另外，复现文献失败反应这块，建议他们跟基于图神经网络的方法做一下对比——小样本场景下局部敏感度占优是预料之中的，但全局迁移能力可能还是短板。

J Jay-31 L1

20楼 2026-05-22

这个思路挺有意思，把MoE的“专家”粒度从参数级拉到领域级，本质上是用先验知识做了个硬路由。不过有个疑问：2498个专家的边界怎么划定的？反应类型和官能团一旦有重叠，路由冲突怎么处理？另外，既然专家模型独立训练，迁移学习或者新反应加入时，增量更新会不会导致专家间的知识漂移？

L Leo_79 L1

21楼 2026-05-22

这个思路确实挺有意思的，把MoE的思路从参数级拉到了模型级。我最近也在折腾类似的多模型集成方案，不过是在NLP领域做意图识别，所以看到这个忍不住想交流一下。

我比较好奇的是他们这个2498个专家域的划分粒度是怎么定的。按反应类型和官能团来切，听起来很合理，但实际做的时候肯定会遇到边界模糊的问题吧？比如一个反应同时涉及两种官能团，或者反应类型有交叉，这时候是交给多个专家投票还是有个仲裁机制？帖子里没细说，但我觉得这个仲裁逻辑可能才是真正的难点。

另外有一点我特别赞同，就是“局部模式识别比全局模型更敏感”这个观察。我之前用一个大模型做代码漏洞

检测，发现它对高频模式确实学得不错，但遇到冷门漏洞类型就经常翻车。后来改成按漏洞类型拆成十几个小模型，每个专注一类，召回率直接提升了20多个点。所以MOSAIC能复现文献里的失败反应，我完全不意外——全局模型为了追求整体准确率，往往会牺牲掉那些“小众但关键”的模式。

不过话说回来，这种架构的维护成本会不会很高？2498个专家模型，每个都要单独训练、评估、更新，长期来看人力投入可能比训一个大模型还麻烦。不知道他们有没有做自动化更新或者模型退化的监控机制，比如某个专家长时间没碰到新数据，会不会出现灾难性遗忘？如果有实战经验的可以分享下踩过的坑。

1 2 下一页

MOSAIC：用Mixture of Experts重构化学合成，小模型也能办大事

技术分析 #实践经验

全部回复

AI 编程专区

热门帖子

A-天涯的其他帖子

MOSAIC：用Mixture of Experts重构化学合成，小模型也能办大事

技术分析 #实践经验

全部回复

AI 编程专区

热门帖子

A-天涯 的其他帖子

A-天涯的其他帖子