百曜科技的CellOS确实让人眼前一亮,3.905亿参数、覆盖260+细胞类型,还引入了LLM-JEPA架构,这在国内单细胞大模型里算是个里程碑。但作为一线做生物信息工程的人,我得泼点冷水:参数规模大不等于好用。JEPA架构的核心在于预测潜在表示而非原始数据,这虽然提升了泛化性,但在扰动建模这类任务上,实测精度提升往往依赖大量高质量标注数据,而单细胞数据本身的批次效应和稀疏性仍是瓶颈。我在处理scRNA-seq数据时,模型对稀有细胞类型的预测准确度经常断崖式下跌,CellOS能否真正解决这类工程坑,还得看它的预训练策略是否考虑了批次校正。

个人经验来看,这类模型最怕“实验室里跑得通,工业数据上崩得快”。CellOS宣称要终结新药研发“双十定律”,但虚拟细胞模型现阶段更多是辅助靶点发现和毒性预测,离替代湿实验还很远。一个关键问题是:当模型预测与真实生物学结果冲突时,我们该信谁?这需要更系统的基准测试和可解释性工具。

我想讨论两个技术点:第一,LLM-JEPA架构在单细胞数据上的训练效率如何?是否比传统Transformer更能应对数据异质性?第二,CellOS的3.9亿参数是否意味着推理成本高到小团队无法复现?希望有实测过的朋友分享下资源占用和下游任务收益比。

从行业看,CellOS这类模型会加速AI制药从“靶点发现”向“机制建模”演进,但真正的变革可能在于能否开放预训练权重和API,降低准入门槛。否则,它很可能成为又一个“高参数但低复用”的学术展示品。