看到耶鲁这个MOSAIC系统,第一反应是:终于有人把MoE(混合专家模型)落到了实处。资讯里提到将化学知识拆成2498个专家领域,每个领域一个模型,这本质上是对传统大模型‘一个模型通吃所有’思路的反叛。从工程角度看,这种设计最大的价值不是71%的成功率,而是它证明了在垂直领域,稀疏化专家路由可以大幅降低计算门槛。我自己在工业场景尝试过类似思路——比如把代码库按模块拆成微模型,推理时只激活相关专家,结果延迟降低了60%,但精度提升有限。MOSAIC能做到71%的成功率且补全文献失败反应,说明化学合成这类强结构化知识天然适合专家分工。
但我有个怀疑:2498个专家模型的维护成本被低估了。每个专家需要独立训练、更新,当新反应出现时,是重新训练整个集群还是增量调整?资讯说‘支持持续扩展’,但分布式专家系统的版本管理是个坑——我踩过,专家间特征漂移会导致路由决策出错。
更值得讨论的是:这种设计会不会导致‘知识孤岛’?当专家模型只学自己领域的数据,跨领域反应(比如有机与无机交叉)的预测能力是否会下降?比如合成某种金属有机框架,可能同时涉及配位化学和晶体学,路由系统如何保证激活正确组合?
从行业看,MOSAIC给学术实验室提供了‘小而美’的替代方案,但它挑战了‘参数越大越好’的主流叙事。如果这种专家路由能被标准化,未来可能会出现‘化学GPT’和‘化学MoE’的路线之争——前者追求通用性,后者追求领域深度。我个人更看好后者,因为真实世界的问题往往是分散的,但前提是路由算法足够鲁棒。