看到百曜科技发布CellOS的消息,第一反应是参数规模3.905亿,确实不小,但真正让我眼前一亮的是他们把JEPA(Joint Embedding Predictive Architecture)引入单细胞建模。JEPA最早在视觉领域被LeCun团队推过,核心是让模型学习隐空间中的预测,而不是直接还原原始数据。这个思路放到细胞转录组数据上,我觉得特别对:细胞状态本质上是高维非线性动态系统,直接预测表达值容易过拟合噪声,JEPA的隐空间对齐反而能抓住更鲁棒的调控逻辑。

从工程角度看,我比较好奇的是训练数据的构建。40多种组织、260多种细胞类型,跨组织、跨扰动的数据对齐通常是个大坑,单细胞测序数据批次效应严重,稍不注意模型就会学到技术噪音而非生物信号。官方说预测精度和扰动建模领先,我猜他们在数据预处理和负样本设计上下了功夫,否则JEPA的对比学习目标很容易坍缩。

说回落地,新药研发的“双十定律”确实烧钱,但虚拟细胞模型替代不了wet lab验证。个人经验是,这类模型更适合做候选分子的初筛和机制假设生成,比如预测某个基因敲除后的细胞状态变化,可以直接缩小实验范围。不过,扰动建模的泛化性是个大问题——训练集里没见过的组织或药物浓度,模型能推得准吗?

最后提两个问题抛给大家:1. JEPA的隐空间维度怎么选?细胞类型多样性高,维度过低会丢失稀有细胞的信息,过高又容易过拟合;2. 跨物种迁移能力如何?如果模型只在人类数据上训练,能否辅助小鼠模型的研究?这直接决定了它在工业界的复用价值。