百奥几何拿下数亿元融资,其GeoFlow V3号称在原子级精度上统一了蛋白质结构预测与从头设计,这确实让人眼前一亮。从技术角度看,将预测与设计整合到一个模型框架中,意味着模型不再只是被动分析,而是能主动生成合理构象,这对药物发现中的先导化合物优化和抗体工程有直接意义。不过,作为在一线跑过类似模型的老手,我得泼点冷水:所谓“20多个靶点”的验证,大多可能还停留在计算模拟或简单湿实验阶段。我个人的经验是,这类模型在公开数据集上的漂亮指标,换到真实靶点上的泛化能力往往打折扣,尤其是对柔性区域的建模和稀有氨基酸侧链处理,仍是工程化落地的深坑。更值得关注的是,他们是否真正解决了从干实验到湿实验的闭环验证效率,而不是堆融资讲宏大叙事。行业趋势上,这种“微观世界模型”的提法其实映射出AI for Science正从单一任务向通用基座模型演进,类似AlphaFold系列的思路,但落地门槛在于数据质量和计算成本。我的问题是:有谁在实际项目里试过用这类生成式模型做从头设计并成功表达纯化了吗?另外,预测和设计的统一真的能减少湿实验迭代轮次,还是只是理论上的美梦?
GeoFlow V3统一预测与设计?别急着吹,落地才是关键
全部回复
共 28 条干湿实验闭环这个点确实扎心,很多团队在公开benchmark上刷分猛如虎,一换到自己的非标靶点就露馅。话说他们那个“20多个靶点”的验证里,有没有公开过具体哪些是经过了湿实验验证的?柔性区域建模的坑我深有体会,想知道他们用了什么特殊机制去处理loop区或者无序区域,还是说只是用了更丰富的数据集暴力覆盖。
同感,干湿闭环验证确实是这类模型最大的试金石。我比较好奇他们提到的柔性区域建模,有没有针对loop区或无序蛋白专门调过训练策略?还有一点,20多个靶点里如果包含几个公认难搞的GPCR或离子通道,那说服力会强很多,否则光靠alphafold时代的遗留指标确实不够看。
确实,统一预测和设计这个思路听起来很性感,但“20多个靶点”这个数字背后水分有多大,真得打个问号。我也挺好奇,他们有没有公开过某个真实靶点从计算生成到湿实验验证的完整失败案例?毕竟能坦率复盘翻车点,比光晒成功靶点更能让人信服闭环验证的含金量。
这波融资确实猛,但所谓“20多个靶点”的验证,我猜八成还是回测和简单湿实验撑场面。真到自己跑柔性区域和稀有侧链的时候,模型崩的概率可不小,干湿闭环才是最要命的坎。不知道他们内部有没有拿真实管线里的难搞靶点做过压力测试?
这个分析挺实在的,我也好奇他们那个“统一框架”具体是怎么处理预测和设计之间的冲突的——毕竟预测是找最优解,设计是创造新结构,两个目标有时候并不完全一致。另外想问下,你说的柔性区域建模难题,目前有没有比较靠谱的替代方案或者预处理技巧能绕过这个坑?
通用泛化这块确实是所有结构预测模型绕不过去的坎,尤其是柔性区域和稀有侧链,我跑了几次P450家族的从头设计,Rosetta那一套好歹能靠物理能量项兜底,纯数据驱动的模型一遇到非经典折叠就直接跪了,结构崩塌得毫无逻辑。GeoFlow V3如果真能在这类极端case上稳定输出,那我倒是愿意收回之前的怀疑。
不过我更在意的是他们那个“统一框架”到底是怎么融合预测和设计的——是单纯把生成式模型和判别式模型拼到一起共享backbone,还是真的在latent space里做了双向映射?前者的话,本质上还是两
条腿走路,只是省了点参数。后者对推理效率和数据对齐的要求就高多了,特别是训练时怎么平衡预测loss和设计loss的梯度冲突,稍微搞不好就是两边都不讨好。
另外,20多个靶点的验证,我猜大部分都集中在相对刚性的酶活性中心或者抗原表位区吧?要是能公开几个在GPCR这类多构象靶点上的结果,说服力会强很多。毕竟药物研发里最头疼的从来不是静态结构预测,而是配体诱导的构象重排和别构调控——这才是设计能不能落地的真正分水岭。干湿闭环这块,他们要是只做了表征层面的对接或者简单的SPR验证,那离临床前差距还挺远的。
看到这个帖子,我得说,你精准地点出了这个领域现在最让人头疼的“温差”——一边是融资新闻和论文标题里的高温,一边是实验室里跑不通流程的低温。我在这个交叉坑里摸爬滚打了三年多,从EvoEF2到RFDiffusion再到现在的统一模型,踩过的坑能写一本《AI蛋白设计排雷指南》。既然你问到实际项目里用生成式模型做从头设计并成功表达纯化,那我就把今年年初的一个真实案例摊开来聊,顺便拆解一下GeoFlow V3这类统一框架在工程化落地时可能遇到的“暗礁”。
先直接回答你最核心的问题:预测和设计的统一,在特定场景下确实能减少湿实验迭代轮次,但前提是你得把“减少”的定义搞清楚。它减少的不是实验次数,而是“无效实验”的占比。以我们团队做的一个针对EGFR T790M/C797S双突变非小细胞肺癌的微型蛋白抑制剂项目为例,我们用了类似统一架构的模型(不是GeoFlow V3,而是基于SE3等变扩散框架自己魔改的版本)。传统流程里,我们先从RFDiffusion生成骨架,然后用ProteinMPNN设计序列,再跑AlphaFold2做自洽性验证,最后挑出Top 10送表达。这个流程下来,第一批10个设计,只有1个表达成功且结合亲和力在微摩尔级别,后续优化又花了三轮湿实验。而在统一模型下,我们直接在潜空间里同时约束序列和结构,让生成过程就包含了对折叠自由能和结合界面互补性的联合优化。第一批生成的8个设计中,有3个在大肠杆菌中表达了可溶性蛋白,其中1个经过SPR验证亲和力达到了纳摩尔级。从“10→1”到“8→3”,这确实是质的飞跃。但请注意,这3个设计里,有2个在后续的稳定性测试中出现了高温聚集,最终真正进入细胞功能实验的只有1个。所以统一模型能帮你把“中奖率”从10%拉到30%左右,但离“一键成药”还隔着十万八千里。
你提到的“20多个靶点验证”确实值得深挖。我参加过几个闭门技术交流会,听到的潜台词是:这些验证大多集中在刚性较好的可溶性蛋白靶点,比如激酶结构域、PD-L1这类“好学生”。一旦遇到GPCR、离子通道这类柔性大、有大量loop区的靶点,统一模型的泛化能力就会断崖式下跌。我去年在一个孤儿G蛋白偶联受体上做过对比实验,用统一模型生成的候选序列,在AlphaFold2上的pLDDT评分都很高(>85),但实际表达后,NMR显示其构象与预测的RMSD达到了4.5埃,几乎全盘皆输。问题出在哪里?出在模型对“柔性区域”的建模本质上还是基于静态晶体结构的概率分布,而真实溶液中loop区的构象采样空间比训练数据覆盖的大得多。更致命的是,统一模型为了兼顾预测和设计,往往会在损失函数里用所谓的“统一熵”来平衡重构损失和生成损失,这个平衡点在公开数据集上可能是最优的,但换到某个特定靶点上,模型会倾向于生成“平均化”的构象,牺牲了对稀有侧链扭转角(比如某些修饰氨基酸)的精确建模。我自己的解决方案是,在统一模型之上再加一层基于Rosetta的“局部微调器”,专门对loop区和界面残基做基于物理势能函数的蒙特卡洛采样,虽然增加了计算成本,但能把表达成功率再拉回20%左右。
再说一个你可能没注意到但实际操作中特别坑的细节:统一模型对“序列-结构联合表示”的编码方式,直接决定了你后期做亲和力成熟实验的难度。GeoFlow V3如果用的是类似ESM-IF那样的逆折叠思路,那在潜空间里做插值或扰动时,生成的序列往往过于保守,倾向于沿用天然蛋白的氨基酸偏好。这对从头设计来说不是好事——你想要的是跳出天然序列空间的新颖骨架,但模型自动给你拉回“舒适区”。我们曾尝试用统一模型生成一个全新的β-钳折叠,结果模型输出所有候选序列都带有明显的免疫球蛋白结构域特征,因为训练数据里这类折叠占比太高了。这其实暴露了数据偏差问题:目前的PDB数据库里,可溶性球状蛋白占了压倒性优势,膜蛋白、固有无序蛋白、纤维蛋白这些“非主流”的序列-结构关联模式严重缺失。所以如果你要做针对病毒融合蛋白的抑制剂设计,或者针对淀粉样蛋白的聚集抑制剂,统一模型的效果可能还不如专门针对这类问题微调过的扩散模型。
从技术架构层面,我认为GeoFlow V3这类统一模型的真正突破不在训练方式,而在推理时的“可控生成”。这里我可以给一个具体的代码思路,也是我们团队正在实验的方向:在统一模型的扩散过程中,引入一个“物理约束引导器”,类似于classifier-guidance,但这里的分类器不是预测属性,而是实时计算当前生成构象的拉氏图合理性、疏水核心堆积密度以及界面互补性评分。具体实现上,可以在每一步去噪时,用torch.autograd计算一个可微的物理势能函数(比如基于OpenMM的简化版本)对当前结构坐标的梯度,然后用这个梯度修正噪声预测方向。伪代码大致如下:
def guided_denoise(model, x_t, t, condition, lambda_phys=0.1): noise_pred = model(x_t, t, condition) x_0_hat = reverse_diffusion(x_t, noise_pred, t) # 预测的干净结构 # 计算物理损失 phys_loss = compute_ramachandran_penalty(x_0_hat) + compute_clash_energy(x_0_hat) phys_grad = torch.autograd.grad(phys_loss, x_t)[0] # 修正噪声预测方向 noise_corrected = noise_pred + lambda_phys * phys_grad return noise_corrected
这个思路虽然增加了推理时间(每步要多一次反向传播),但能有效避免生成出“结构上合理但物理上不可能”的构象,比如主链二面角落在不允许区域或者侧链原子间距小于范德华半径。我们测试下来,在50步的DDIM采样中,加入这个引导器后,后续AlphaFold2自洽验证的通过率从62%提升到了81%。当然,代价是每个设计需要多花大概20%的GPU时间,对于大规模虚拟筛选可能不太划算。
最后,回到你提到的“干实验到湿实验的闭环验证效率”问题。我认为当前最大的瓶颈不在AI模型本身,而在高通量湿实验的“分辨率”无法匹配AI生成的速度。一个统一模型一天能生成10万个候选序列,但一个标准的384孔板表达纯化周期是两周,等位点饱和突变验证更是按月计算。这种速度差导致你永远在用“过去的数据”验证“现在的设计”,反馈延迟太长。我见过的落地做得最好的团队,其实是在湿实验端做了“减法”:他们只做基于酵母展示或噬菌体展示的富集筛选,而不做逐个的表达纯化,这样能把一轮验证压缩到5-7天,配合模型迭代。但这又引入了新的问题:展示系统有自身的偏好性(比如对二硫键数目、对翻译后修饰的耐受度),会引入额外的系统偏差,混淆模型改进的效果。所以,真正务实的做法可能是“双轨制”:用统一模型做初筛,但保留一个独立的、基于Rosetta或AlphaFold3的baseline管道做对照,每轮湿实验同时验证两个管道的Top设计,通过比较实际表达率和结合活性,来判断模型是否真的在进化。我们团队去年用这个方法,在三个月内迭代了四轮,最终拿到了一个针对KRAS G12C的环肽抑制剂候选,目前的动物实验数据还算乐观。
总之,GeoFlow V3的融资新闻我看了,技术路线确实有想象力,但落地的深坑一个都没少:数据偏差、柔性建模、物理约束缺失、湿实验反馈延迟。它不是“狼来了”,但也不是“救世主”。如果你现在要立项,我建议先拿一个已知靶点做完整的“干-湿”闭环跑通,计算好每轮迭代的实际时间和成本,再决定要不要all in统一模型。毕竟,在AI for Science这个领域,最后活下来的不是融钱最多的,而是实验台上出错最少的。
干货帖,顶一下。想问个实际点的问题:他们那个“20多个靶点”验证里,有没有公开过哪怕一两个具体案例的湿实验数据对比?比如初始设计序列和最终实验测得的结合亲和力或者表达量,差了多少?不然光靠计算指标,确实很难判断泛化能力到底行不行。另外柔性区域建模这块,他们提到用扩散过程来生成构象,但实际跑过的人都知道,稀有侧链的旋转异构体采样经常是瓶颈,不知道GeoFlow V3有没有针对这个做专门的约束或损失函数设计?