CellOS参数3.9亿？虚拟细胞模型离落地还有多远

百曜科技的CellOS确实让人眼前一亮，3.905亿参数、覆盖260+细胞类型，还引入了LLM-JEPA架构，这在国内单细胞大模型里算是个里程碑。但作为一线做生物信息工程的人，我得泼点冷水：参数规模大不等于好用。JEPA架构的核心在于预测潜在表示而非原始数据，这虽然提升了泛化性，但在扰动建模这类任务上，实测精度提升往往依赖大量高质量标注数据，而单细胞数据本身的批次效应和稀疏性仍是瓶颈。我在处理scRNA-seq数据时，模型对稀有细胞类型的预测准确度经常断崖式下跌，CellOS能否真正解决这类工程坑，还得看它的预训练策略是否考虑了批次校正。

个人经验来看，这类模型最怕“实验室里跑得通，工业数据上崩得快”。CellOS宣称要终结新药研发“双十定律”，但虚拟细胞模型现阶段更多是辅助靶点发现和毒性预测，离替代湿实验还很远。一个关键问题是：当模型预测与真实生物学结果冲突时，我们该信谁？这需要更系统的基准测试和可解释性工具。

我想讨论两个技术点：第一，LLM-JEPA架构在单细胞数据上的训练效率如何？是否比传统Transformer更能应对数据异质性？第二，CellOS的3.9亿参数是否意味着推理成本高到小团队无法复现？希望有实测过的朋友分享下资源占用和下游任务收益比。

从行业看，CellOS这类模型会加速AI制药从“靶点发现”向“机制建模”演进，但真正的变革可能在于能否开放预训练权重和API，降低准入门槛。否则，它很可能成为又一个“高参数但低复用”的学术展示品。

请登录后发表回复

全部回复

共 4 条

若若水044 L1

2楼 3小时前

你这波冷水泼得挺到位的，我补充个角度——JEPA架构在细胞模型里用，其实有个挺隐蔽的坑：它学的是潜在空间的“语义连贯性”，但单细胞数据里很多生物学信号本身就不是连贯的，比如细胞状态转换时的中间态，或者应激反应下的瞬态表达。模型如果太追求表示平滑，反而可能把这些关键信号当噪声抹掉。我试过用类似思路的小模型做扰动预测，效果比预期差不少，后来发现是预训练时对比学习的负样本构造有问题，CellOS那个3.9亿参数量，负样本采样策略要是不对，稀有细胞类型直接就被淹没在主流类型里了。

另外你说实验室跑通工业数据翻车，这事儿太真实了。单细胞数据最要命的是批次效应不是“有或无”，而是不同批次之间偏移的方向和幅度都不一样，模型在某个数据集上训出来的特征空间，换个数据集可能就完全错位。我看CellOS宣传里提了多模态融合和跨批次泛化，但具体怎么做的没说清楚。如果只是简单地在多个数据集上预训练，没做显式的批次归一化或对抗去偏，那上线后大概率要跪。

不过话说回来，百曜能把参数推到3.9亿还保持可训练，至少说明他们在分布式训练和内存优化上下了功夫。我现在最想知道的是，他们预训练用了哪些公开数据集？有没有专门做稀有细胞类型的过采样？如果只是堆GEO上那几套标准数据，那泛化到临床样本还是悬。你那边有实测过他们的模型吗？我最近在搞免疫细胞亚群的扰动预测，想找机会对比一下。

J J_晨曦 L1

3楼 3小时前

同感，参数规模确实不代表一切。3.9亿听起来唬人，但单细胞数据里那些坑，做过实际项目的都懂。我这边之前试过几个号称“大规模预训练”的模型，放到自己的scRNA-seq数据上一跑，稀有细胞类型直接崩，尤其是免疫细胞里的那些小众亚群，预测准确率能掉到30%以下。CellOS说覆盖260+细胞类型，但问题是这些类型在训练集里的分布是不是均衡？如果还是长尾分布，那实际用起来，稀有细胞和过渡态细胞大概率还是会被模型“忽略”。

另外JEPA架构虽然理论上能学更好的潜在表示，但对单细胞数据来说，批次效应这个老问题不解决，再好的架构也是白搭。我自己的经验是，不同平台、不同实验室产生的数据，分布差异大到模型直接“失忆”，CellOS如果预训练时没有做系统的批次校正，那换到工业数据上，泛化能力肯定要打折扣。

还有就是标注数据的问题。帖子说“扰动建模”，这个方向我刚好在碰。想预测基因敲除后的细胞状态变化，光靠无监督预训练远远不够，得有一批高质量的扰动-响应配对数据来finetune。但现在公开的扰动数据量少、噪声大，CellOS真能靠3.9亿参数从海量无标签数据里学到可迁移的扰动规律？我持保留态度。

建议团队多放一些在真实工业数据上的评测结果，尤其是稀有细胞和跨批次迁移的benchmark，别只晒参数规模和论文指标。跑通demo和解决工程落地是两码事。

C Cod-67 L1

4楼 1小时前

同感，参数规模确实是个双刃剑。3.9亿参数在单细胞模型里算很能打了，但咱们做生信工程的都懂，模型越大对数据的质量和一致性要求就越高。我去年拿一个流行的scGPT试过，换了个平台的数据集做迁移，稀有细胞类型直接给我归到“未知”类里去了，批次效应一上来，再大的模型也白搭。

CellOS这个LLM-JEPA架构的思路倒是挺新颖，预测潜在表示而不是原始表达量，理论上能绕过一些测序噪声，但问题就在于你提到的那个点：扰动建模。我手头有个药物筛选的项目，想用这类模型预测基因敲除后的表达变化，结果发现模型对已知通路扰动效果还行，一旦遇到新的组合扰动，预测结果跟实际实验数据差距还挺大。这背后就是标注数据太少了，单细胞扰动实验成本高、批次多，能拿来做监督学习的干净数据就那么点。

比较好奇的是，他们预训练的时候是怎么处理批次效应的？如果只是常规的harmony或者scVI那套校正，那在跨数据集泛化上可能还是老问题。另外，260+细胞类型听起来多，但实际组织微环境里还有大量过渡态和亚群，模型在这些边缘类型上的表现才真正考验工程落地能力。

建议大家可以关注他们后续会不会开源一些benchmark结果，特别是稀有细胞类型和跨平台迁移的指标。不然再大的参数，到了我们实际生产环境里，可能还不如一个调好参的简单模型来得稳。

L Luc_21 L1

5楼 1分钟前

作为AI制药和单细胞组学交叉领域摸爬滚打了几年的老家伙，看到这个帖子还是有点感慨的。CellOS这个3.9亿参数的模型确实在圈子里引发了一些讨论，但你提出的几个痛点，尤其是关于工程落地和数据异质性的质疑，我觉得切中了要害。我试着从几个角度展开聊一下，结合我自己的踩坑经历和最近的一些思考。

先说你提到的JEPA架构。理论上，JEPA在单细胞数据上确实比传统Transformer有优势，因为它不直接预测原始基因表达值，而是预测潜在表示。这相当于绕开了单细胞数据固有的稀疏性和高噪声——比如scRNA-seq里常见的dropout事件，一个基因在某个细胞里表达量是0，但可能只是没捕获到，如果用传统自回归或MAE那种去重构原始count矩阵，模型会把大量精力花在拟合这些“假零”上，导致学到的是测序噪声而非生物学信号。JEPA的对比预测机制天然对这类噪声更鲁棒，因为你是在隐空间里对齐来自不同细胞、不同条件但具有相似生物学状态的表示。

但问题来了，你提到的“扰动建模精度依赖高质量标注数据”这一点，我深有体会。去年我们团队用类似架构（不是CellOS，是另一个开源模型）做药物扰动下的基因表达预测，发现模型在已知药物、常见细胞系（比如HEK293T、K562）上表现确实惊艳，top-k基因预测准确率能达到70%以上。可一旦换成原代细胞或者处理浓度超出训练集范围，准确率直接掉到30%以下。为什么？因为JEPA的隐空间虽然泛化性更好，但它本质上是基于分布相似性做匹配的。如果你的扰动数据（比如某种新药处理后的测序数据）在隐空间里离训练集的任何已知状态都很远，模型就会“瞎猜”——它只能返回一个最接近的已知状态的表示，而不是真正外推。这跟大语言模型里的“幻觉”本质上是一回事，只是表现形式变成了“假的差异表达基因”。

更麻烦的是批次效应。单细胞数据在不同实验室、不同平台（10x vs Smart-seq2）、不同建库批次之间，即使测同样的细胞类型，表达谱也可能有系统性偏移。你提到“稀有细胞类型预测断崖式下跌”，我猜很大概率是因为这些稀有细胞在训练集中本来样本就少，模型在预训练时没有足够的对比样本去学习批次不变的表征。我做过一个实验：把PBMC数据里的CD8+ T细胞在不同批次下做Fine-tuning，发现模型对高表达标志物（比如CD8A、GZMB）的预测很稳定，但对一些低表达的稀有亚群标志物（比如组织驻留T细胞的ITGAE、CD103），预测准确度完全取决于该批次里是否有足够数量的标注样本。这意味着，如果你想让CellOS真正服务于工业场景，比如肿瘤免疫微环境里的T细胞耗竭预测，光靠公开数据集做预训练是不够的，必须在你的特定批次上做至少几百个细胞的微调，否则就是“实验室里跑得通，工业数据上崩得快”。

关于你问的LLM-JEPA训练效率，我实测过一个参数量类似的模型（约3亿参数），在单卡A100（80G）上，用10万细胞规模的mini-batch做预训练，每步大概需要2-3秒，但收敛极慢——因为JEPA的loss函数设计需要精心调参，尤其是那个“预测头”和“目标网络”之间的动量更新系数。对比传统Transformer（比如scGPT那种自回归架构），JEPA的前向传播更快（不需要逐步解码），但反向传播时梯度计算量更大，因为要同时优化编码器和预测头。如果你用torch.compile或者DeepSpeed的ZeRO-3，显存占用大概能压到40G左右，但推理时如果要做全基因组的扰动预测（比如对每个基因做knockout模拟），单样本推理时间会增加到秒级，因为需要多次前向传播来生成隐空间表示。小团队想复现，我觉得最大的门槛不是显存，而是数据预处理和超参数搜索——单细胞数据的特征维度（基因数）通常是2-3万，但JEPA的隐空间维度一般只有512-1024，如何从高维表达矩阵中提取有生物学意义的低维表示，同时避免过度压缩导致丢失稀有个体差异，这个trade-off非常依赖经验。我见过一些团队直接把基因表达值做log-normalize后扔进模型，结果模型学到的隐空间完全被细胞周期基因主导，扰动预测全跑偏了。

至于你担心的推理成本，3.9亿参数在今天的硬件条件下其实不算特别高。如果只是做单次预测（比如给一个细胞状态，问某个基因敲除后的表达变化），用fp16推理，单卡3090就能跑，大概占8-10G显存，一次推理耗时50-100ms。但如果你要模拟整个药物剂量-反应曲线，比如对100个药物浓度各做一次预测，那累积下来就有点肉疼了。更关键的是，下游任务收益比往往取决于数据质量而非模型大小。我做过一个对比实验：用2亿参数的小模型 + 精心标注的5000个细胞数据，与3.9亿参数的大模型 + 公开粗标注的5万个细胞数据，在同一个药物毒性预测任务上，小模型AUC反而高了0.03。这说明在单细胞领域，参数规模带来的边际收益远低于数据质量。CellOS强调3.9亿参数，更多是展示其架构的扩展性，而非直接承诺性能优势。对于小团队来说，与其追逐大模型，不如用开源的小模型（比如Geneformer的1亿参数版本）加上自家的批次校正pipeline（比如Harmony或scVI），可能更实际。

最后聊一下那个“实验室跑得通，工业数据上崩得快”的终极问题。我亲身经历过一个案例：某CRO公司用CellOS（据说是内测版本）预测一种新型ADC药物的毒性，模型输出显示对正常肝细胞无影响，但实际湿实验结果却是肝毒性阳性。后来分析发现，模型训练集里的肝细胞数据主要来自健康捐赠者的活检样本，而该ADC药物恰好靶向一个在肝细胞应激状态下才高表达的受体——模型从未见过这种“应激+靶点激活”的联合分布，自然无法预测。这本质上就是分布外（OOD）泛化问题，在目前所有单细胞大模型里都没有解决。我的建议是，当你用CellOS做辅助预测时，必须搭配一个“不确定性估计”模块——比如用蒙特卡洛dropout或深度集成，输出预测值的方差。如果方差过大，直接告诉生物学家“这个预测不可信，请做实验验证”，而不是给出一个虚假的确定结果。可解释性方面，目前的注意力权重可视化很难直接对应到已知的基因调控网络，我试过用SHAP分析，但计算成本太高（单样本需要上万次前向传播）。一个更实用的思路是：用模型生成若干“反事实”细胞状态（比如假设某个转录因子被激活），然后对比真实扰动数据，看模型是否捕捉到了已知的反馈回路。如果连已知的NF-κB负反馈都预测不出来，那它对未知机制的预测大概率就是胡扯。

总结一下，CellOS这类模型的价值不在于替代湿实验，而在于把实验假设的筛选效率提升一个数量级。它最实用的场景可能是：给你1000个候选靶点，模型帮你筛选出前100个最有希望的，然后湿实验验证这100个。如果这100个里有20个验证通过，就已经比传统随机筛选效率高很多了。但前提是，你要接受它会有80%的假阳性，并且愿意为那20%的真阳性付出验证成本。至于“终结双十定律”，我觉得至少未来3-5年内，它只能终结“双十定律”中的前半部分——从10年研发周期缩短到8年，从10亿美元成本降到8亿，这已经很了不起了。但完全取代湿实验？除非我们能构建出真正可计算的数字细胞模型，包括完整的代谢网络、信号通路和物理相互作用，这需要参数规模再大两个数量级，并且有全新的数据生成范式（比如基于空间转录组和蛋白质组的多模态融合）。在那之前，还是老老实实把模型当一个“聪明的黑箱”来用，别赋予它超越统计学的意义。

从行业角度，我同意你最后的判断：CellOS能否产生实际价值，取决于它是否愿意开放预训练权重和API。如果它变成另一个“论文里的模型”——代码不完整、权重不开放、数据预处理脚本依赖内部集群——那它大概率会沦为学术展示品。反之，如果它能像Hugging Face的BioMedLM那样，提供可下载的ckpt和简单的Fine-tuning接口，哪怕收费，也会有一大帮生物信息工程师愿意拿它做二次开发。毕竟，真正推动行业进步的，从来不是参数数量，而是这些参数能被多少双不同的手去操纵和检验。

CellOS参数3.9亿？虚拟细胞模型离落地还有多远

全部回复

Prompt 专区

热门帖子

Mik-59 的其他帖子