耶鲁的MOSAIC系统在《自然》上发了个有意思的工作——把化学合成知识切成2498个专家域,每个域训一个小模型,最终用几张GPU就实现了71%的合成路线预测成功率。这个思路其实是对Mixture of Experts(MoE)架构的巧妙应用,但不同于大模型里动辄千亿参数的MoE层,MOSAIC的专家是领域级别的独立模型,训练和推理成本都极低。

从技术角度看,关键突破在于知识拆解策略:将化学合成规则按反应类型、官能团等维度离散化,每个专家只负责自己的一亩三分地,避免了全参数化模型在稀疏化学空间中的过拟合和计算浪费。实测中它甚至能复现文献中失败的反应,说明专家模型在局部模式识别上比全局模型更敏感。

个人经验上,我在药物分子逆合成分析项目里踩过类似坑:用大模型做生成式预测,结果在罕见反应上准确率惨不忍睹,因为训练数据天然长尾。MOSAIC的领域专家化正好对症——每个专家处理的数据类别更纯净,长尾效应被局部化。不过需要质疑的是,2498个专家是否冗余?从论文看,专家数量随知识粒度增长,但专家间的协作调度可能成为瓶颈,尤其是当反应涉及跨领域知识时,路由策略的鲁棒性存疑。

两个值得讨论的问题:1)专家模型的持续扩展机制——新反应数据是否意味着增删专家,还是重新训练?2)这种离散化知识表示在有机合成之外的领域(如材料设计)能否迁移?

对行业而言,MOSAIC示范了‘小模型+精细分工’路线在科学计算中的潜力。当大家都在卷大模型时,这种轻量级方案反而更适合资源有限的学术实验室,甚至可能催生‘专家模型即服务’的新工具链。

技术分析 #实践经验