耶鲁的MOSAIC系统让我眼前一亮,尤其是它用2498个专家模型替代单一巨模型的设计思路。技术上看,这本质上是将化学合成知识进行领域分解(domain decomposition),每个专家模型专注一个子领域(2498个领域),从而大幅降低计算开销。实测71%的成功率确实亮眼,但更值得关注的是它能在文献失败的反应上成功——这说明专家模型的局部优化可能比全局大模型更擅长捕获化学反应中的细微模式。
从工程实践角度,我踩过类似坑:用单一LLM做代码审查时,模型往往在特定框架(如PyTorch)上表现优异,但切换到TensorFlow就崩盘。MOSAIC的模块化思路类似微服务架构——每个模型只负责自己的“一亩三分地”,训练和迭代成本都低。不过,我担心的是领域划分的边界问题:2498个领域是否覆盖所有化学空间?如果新反应跨越多个领域,模型间的协作机制是否足够鲁棒?
讨论问题:1)专家模型的规模如何确定?在资源受限下,是增加领域数量还是提升每个模型容量?2)MOSAIC的持续扩展性听起来很美,但实际生产中,新增领域是否需要重新训练所有关联模型?
行业视野上,MOSAIC打破了“大模型即正义”的迷信。对于AI落地,尤其是学术实验室场景,资源效率比绝对精度更重要。未来,模块化、可组合的模型集群可能会取代单一巨模型,在专业领域(如药物发现、材料科学)中成为主流。这有点像从单体架构转向微服务——不是所有问题都需要一个全能神。