扎克伯格在AI蛋白质领域再下一城。近日,其夫妇创办的非营利机构Biohub发布了全球首个开源蛋白质世界模型,这是一套集蛋白质结构预测、设计和生物发现于一体的完整系统。该系统基于包含68亿蛋白质和11亿个结构的全球最大蛋白质结构与功能图谱ESM Atlas,并集成了最新的蛋白质折叠模型ESMFold2,后者在实测中战胜了AlphaFold3。这一成果直接瞄准药物研发的核心痛点——如何快速、精准地设计全新蛋白质结合剂,为癌症和免疫学治疗带来突破可能。
这套世界模型由三大核心部件组成。首先是蛋白质语言模型ESMC,拥有3亿、6亿和60亿三个参数规模,其训练数据从约5000万序列扩展至约28亿序列,纳入了宏基因组数据。其次,ESMFold2在速度上显著领先其他折叠模型,同时保持了业界领先的准确性。第三,ESM Atlas作为全球最大的蛋白质结构与功能图谱,包含68亿个蛋白质和11亿个预测结构,数据量比AlphaFold数据库多出8亿条目。在论文中,研究人员针对EGFR、PDGFRβ、PD-L1、CTLA-4和CD45五个关键靶点进行测试,蛋白命中率达到36-88%,抗体模式命中率为15-29%。
Biohub的底气源于陈-扎克伯格倡议(CZI)的巨额投入。今年四月,该组织宣布了一项为期5年、投入5亿美元的“生物版登月计划”,联合10x Genomics、Ultima Genomics等机构启动“十亿细胞项目”,旨在构建生命预测模型所需的多模态数据集。此前,Biohub已推出全球首个能推理细胞生物学的AI模型rBio,有望减少昂贵的生物实验。副总裁Sal Candido表示,这是一张前所未有的蛋白质生物学地图,而该模型目前已在Biohub平台免费向全球科学界开放。
从行业角度看,这一开源模型将大幅降低蛋白质设计的门槛。过去,药物研发中的蛋白质结合剂设计需要大量湿实验和试错,而ESM世界模型通过数据驱动的方式,让研究人员能在生命尺度上进行快速分析和发现。对于AI从业者而言,ESMC和ESMFold2的开源提供了直接可用的预训练模型,可用于抗体设计、酶工程等场景。未来,随着“十亿细胞项目”的推进,这一系统有望进一步整合细胞级数据,推动从蛋白质到细胞的完整生物学建模,真正加速治愈人类疾病的进程。