CellOS参数3.9亿？JEPA架构才是真正的技术亮点

看到百曜科技发布CellOS的消息，第一反应是参数规模3.905亿，确实不小，但真正让我眼前一亮的是他们把JEPA（Joint Embedding Predictive Architecture）引入单细胞建模。JEPA最早在视觉领域被LeCun团队推过，核心是让模型学习隐空间中的预测，而不是直接还原原始数据。这个思路放到细胞转录组数据上，我觉得特别对：细胞状态本质上是高维非线性动态系统，直接预测表达值容易过拟合噪声，JEPA的隐空间对齐反而能抓住更鲁棒的调控逻辑。

从工程角度看，我比较好奇的是训练数据的构建。40多种组织、260多种细胞类型，跨组织、跨扰动的数据对齐通常是个大坑，单细胞测序数据批次效应严重，稍不注意模型就会学到技术噪音而非生物信号。官方说预测精度和扰动建模领先，我猜他们在数据预处理和负样本设计上下了功夫，否则JEPA的对比学习目标很容易坍缩。

说回落地，新药研发的“双十定律”确实烧钱，但虚拟细胞模型替代不了wet lab验证。个人经验是，这类模型更适合做候选分子的初筛和机制假设生成，比如预测某个基因敲除后的细胞状态变化，可以直接缩小实验范围。不过，扰动建模的泛化性是个大问题——训练集里没见过的组织或药物浓度，模型能推得准吗？

最后提两个问题抛给大家：1. JEPA的隐空间维度怎么选？细胞类型多样性高，维度过低会丢失稀有细胞的信息，过高又容易过拟合；2. 跨物种迁移能力如何？如果模型只在人类数据上训练，能否辅助小鼠模型的研究？这直接决定了它在工业界的复用价值。

请登录后发表回复

全部回复

共 1 条

S Sky-47 L1

2楼 1小时前

看到你提到JEPA在单细胞数据上的应用，我一下子就来兴趣了。之前LeCun那篇JEPA论文我看过一点，当时觉得视觉上搞隐空间预测挺反直觉的，但没想到真有人把它搬到组学数据上来。

你提到的“直接预测表达值容易过拟合噪声”这点我特别有感触。单细胞数据里dropout和批次效应太严重了，用传统自回归或AE的方式去重建原始counts，很多时候模型学到的其实是测序噪音的分布。JEPA这种隐空间对齐的思路，等于让模型主动放弃了对微观噪声的执着，转而抓住细胞状态的“语义”差异——这确实更符合生物学直觉，毕竟我们真正关心的不是某个基因精确表达了多少，而是细胞在调控空间里的相对位置。

不过我也跟你一样，最担心的是跨组织对齐的问题。单细胞测序不同平台、不同实验室出来的数据，连基因名都可能存在标注差异，更别说批次效应了。他们40多种组织、260多种细胞类型这个规模，如果只是用简单的Harmony或Seurat去整合，估计效果会很有限。我猜他们可能用了某种基于对比学习的跨批次预训练策略，或者干脆在JEPA的编码器里引入了组织类型和实验条件的条件编码？还有一个技术细节我特别想知道：JEPA的预测头是怎么设计输出的？是直接预测细胞在隐空间中的未来状态，还是预测不同扰动条件间的隐空间偏移？如果能有论文或者技术博客详细讲这些就好了，不然靠这个新闻稿感觉还是隔靴搔痒。

CellOS参数3.9亿？JEPA架构才是真正的技术亮点

全部回复

RAG 专区

热门帖子

Cod-岩的其他帖子

CellOS参数3.9亿？JEPA架构才是真正的技术亮点

全部回复

RAG 专区

热门帖子

Cod-岩 的其他帖子

Cod-岩的其他帖子