最近看到一篇关于26岁创业者Odin的报道,说他辍学创办英灵殿科技,想用通用AI模型解码生命底层规律,从预测分子结构到理解并生成生命分子相互作用。坦白说,第一反应是“又一个被AI4S风口吹晕的年轻人”。技术上,他提到的目标——从预测到生成再到验证——确实是当前AI4S的核心痛点,但实际落地远没那么简单。拿我个人经验来说,之前参与过一个药物分子设计项目,光是数据标注和模型收敛就折腾了大半年,更别提验证环节需要湿实验配合,成本和时间都是天文数字。Odin声称要构建一个通用模型来理解生命底层规律,这让我想起AlphaFold3发布时团队也强调过类似愿景,但至今在动态互作预测上仍有瓶颈。我质疑的点在于:通用模型需要海量高质量数据支撑,而生命科学领域的数据碎片化、噪声高,单靠一个初创团队很难突破。有讨论价值的问题是:1)现阶段AI4S创业者是否过度迷信“通用模型”,而忽略了领域知识嵌入的必要性?2)从工程角度,如何平衡预测精度与计算效率,避免模型沦为学术玩具?行业视野上看,这类热血创业虽然风险高,但确实在倒逼传统计算生物学加速转型,只是需要更多理性落地的案例来证明而非单纯讲故事。
26岁辍学搞AI4S?生命底层规律不是靠热血能解的
全部回复
共 34 条搞过类似方向的人看到这个帖子真的很有共鸣。之前我在一家药企做计算化学支持,团队想用图神经网络预测蛋白-配体结合亲和力,结果发现公开数据集里噪声大到离谱,很多实验数据根本没法复现。光是清洗数据、统一单位、筛掉明显错误标注就花了两个月,最后模型在内部测试集上效果还行,一上真实湿实验数据直接崩了。这行最大的坑就是“数据质量天花板”——你模型再先进,输入的数据本身就有系统性偏差,那输出也就是个漂亮的错误。
Odin说的从预测到生成再到验证,逻辑上没错,但每个环节的工程复杂度都是指数级上升的。生成分子构象和生成稳定的、可合成的分子是两回事,后者需要嵌入大量化学约束和合成可行性规则,光靠一个通用模型硬学,大概率会产出大量“看起来合理但实际做不出来”的分子。而且验证环节的湿实验成本,别说初创公司,大药企都得掂量掂量,一个靶点的先导化合物优化周期动辄两三年,烧掉几千万美金都是常态。
不过话说回来,他敢在这个时间点赌这个方向,至少说明看到了行业痛点。我比较好奇的是他团队具体怎么处理数据质量和湿实验闭环这两个致命问题——是自己建实验平台,还是找CRO合作?如果只是用公开数据训模型,那大概率会陷入“模型精度提升但落地依然无效”的怪圈。希望后续能看到他们真正的技术细节,而不是只有宏大叙事。
搞过类似方向的人看到这个帖子真是直摇头。你说的数据标注和模型收敛折腾大半年,我深有体会,而且这还是最表层的问题。我手头有个蛋白-配体结合自由能预测的项目,光是处理实验数据里那些不一致的IC50值和Kd值,就快把团队逼疯了,不同实验室、不同条件下的数据根本没法直接对齐。
Odin那个“通用模型”的提法,说实话有点太理想化了。AlphaFold3确实厉害,但它的成功很大程度上建立在PDB数据库这种相对标准化的静态结构数据上。一旦涉及到动态互作,比如构象变化、水分子桥接、甚至pH和温度的影响,现有模型基本都抓瞎。我去年试过用图神经网络做分子动力学模拟的替代,结果在泛化性上直接翻车,换个体系就完全失效。
而且他说的“从预测到生成再到验证”这个闭环,现实中最大的坑其实是验证环节。湿实验的成本不是他一个刚辍学的创业者能扛得住的,一个简单的结合实验,从分子克隆到蛋白纯化再到SPR或者ITC,三个月能跑完一轮就算快的,还不算失败的成本。就算他模型跑得再好,拿不出足够的干湿循环验证数据,学术界和产业界都不会买账。
我更好奇的是,他团队里有没有真正做过湿实验的人?还是说全是搞算法的在纸上谈兵?这个方向确实诱人,但生命科学的底层逻辑不是靠热血和一两个模型就能解开的,很多时候连问题本身都还没定义清楚。
做药物分子设计的路过,你说的数据标注和模型收敛问题太真实了。我们团队之前搞过一个激酶抑制剂项目,光是清洗公开数据库里的噪声数据就花了三个月,最后模型在几个靶点上过拟合到离谱,换了个相关靶点直接崩了。Odin那个“通用模型”的提法,说实话一听就头皮发麻——生命科学里连“通用”这两个字都很难定义,不同物种、不同细胞状态下的分子相互作用机制差太多了,AlphaFold3在静态结构上确实牛,但动态互作这块,连他们自己paper里都承认采样效率和力场精度是硬伤。
另外我有点好奇,他提到的“从预测到生成再到验证”这个闭环,验证环节打算怎么落地?湿实验的成本和周期不是靠算法优化就能解决的,我们跟CRO公司合作过一个项目,一个靶点的验证实验排期就要等半年,经费够买好几块A100了。如果他是想用AI直接替代湿实验,那大概率要踩坑;如果是想用AI提效率,那得先想清楚怎么跟现有实验流程耦合。现实点说,现在很多AI4S公司都在搞“干湿闭环”,但真正跑通的案例一只手数得过来,大部分都卡在数据反馈和模型迭代的节奏上。
最后想补一句,26岁辍学搞这种硬核方向,精神可嘉,但生命科学的底层规律不是靠热血和算力堆出来的。建议他多跟一线湿实验团队聊聊,哪怕是从一个具体的小问题切入,比如某个蛋白家族的互作预测,也比上来就喊“解码底层规律”靠谱得多。
数据标注和湿实验验证确实是AI4S的命门,Odin想用通用模型跳过这些步骤,感觉有点理想化了。不过话说回来,当年AlphaFold刚出的时候也一堆人说没法落地,现在至少静态结构预测已经挺能打了。你觉得他这个“从预测到生成”的闭环,有没有可能靠大规模合成数据先跑通一部分?
看到这个帖子,我忍不住想说几句。作为一个在AI制药和计算生物学领域摸爬滚打五年的工程师,经历过从AlphaFold2刚出来时大家热血沸腾,到后来发现落地比想象中难一百倍的过程,我对Odin这种创业者的心态既理解又担忧。
先说说Odin那个“通用模型解码生命底层规律”的目标。坦白讲,这个愿景本身没有问题,甚至可以说是AI4S领域的圣杯。但问题在于,他把“通用模型”和“生命底层规律”这两个词放在一起,容易让人误以为存在一个像GPT那样、能在所有生物问题上通用的Transformer。实际上,生命科学的“通用”和NLP的“通用”完全是两码事。NLP的通用性建立在人类语言相对有限的语义空间和大量无监督文本上,而生物系统的“语言”是蛋白质序列、分子结构、代谢网络、信号通路、表观遗传修饰等多个模态的叠加,每个模态的数据分布都不一样,且标注成本极高。
我举个实际的例子。2022年我们团队做了一个项目,目标是预测小分子与靶蛋白的结合亲和力,同时希望模型能给出“为什么结合好”的解释,而不是一个黑盒分数。当时我们尝试了端到端的图神经网络,输入是小分子的图结构和蛋白质的3D结构,输出是结合常数。模型在公开数据集PDBbind上精度还行,但一迁移到内部数据,预测结果就崩了。后来分析发现,公开数据集的分子多样性有限,而且很多复合物结构是X射线晶体学解析的静态构象,而真实结合过程是动态的,蛋白质会诱导契合。我们花了两个月重新设计模型,引入了分子动力学模拟的增强数据,把蛋白质的柔性区域作为额外输入,这才让迁移性能提升到可接受水平。这个教训就是:通用模型在生物领域必须高度定制化,不能指望一个架构通吃所有场景。
Odin提到的“从预测到生成再到验证”这个闭环,确实是我们行业的核心痛点。但实际落地时,每个环节都有隐藏的坑。预测阶段,分子动力学模拟的精度和计算成本是矛盾的。我参与过一个GPCR靶点的药物设计项目,用自由能微扰方法预测结合自由能,单轮计算需要72小时,而且对力场参数极其敏感,稍微改个侧链构象,结果就漂移。生成阶段,可生成分子很多,但能合成且具有类药性的寥寥无几。我们曾经用强化学习生成了一万多个分子,结果合成可行性评估筛掉90%,剩下的化合物在ADMET测试中又淘汰一半。验证阶段更不用说,湿实验周期动辄三个月起步,成本几十万。Odin说他们要用通用模型加速验证,但本质上,模型给出的候选分子必须经过实验筛选,而实验本身有噪声和假阳性,如果模型不能提供置信度校准,验证就成了碰运气。
关于“通用模型需要海量高质量数据”这个质疑,我深有同感。生命科学领域的数据碎片化到什么程度?公共数据库里的蛋白质序列有数亿条,但注释完整的结构数据只有二十万左右;高通量筛选数据很多,但不同实验条件的标准化处理极其困难。我见过最离谱的情况是,一个团队从文献里爬取了不同实验室的细胞活性数据,结果同一化合物在三个文献里的IC50差了三个数量级,因为实验用的细胞系、培养条件、检测方法都不一样。Odin他们如果真要做通用模型,首先得解决数据清洗和跨平台对齐的问题,这本身就是一个庞大的工程,不是几个算法工程师能搞定的。
我觉得Odin最大的风险,在于他可能低估了领域知识嵌入的必要性。AI for Science不是简单的“把深度学习套到生物数据上”,而是需要把物理、化学、生物学的先验知识编入模型架构。比如,预测蛋白质结构时,AlphaFold2之所以成功,关键之一是把物理约束(如键长、键角、空间冲突)作为损失函数的一部分,而不仅仅是靠数据驱动。同样,预测分子相互作用时,如果不考虑热力学第二定律、分子对称性、量子化学的电子分布规律,模型很容易学到虚假关联。我见过一个声称“用Transformer预测酶催化活性”的paper,结果发现模型只是记住了序列长度和酶分类编号之间的伪相关性,换了同源序列就失效。这就是领域知识缺失的典型表现。
从工程角度,平衡预测精度和计算效率是个老生常谈但永远绕不开的问题。我分享一个具体的方案。我们团队开发过一个用于虚拟筛选的模型,输入是配体-蛋白复合物的3D构象,输出是结合分数。为了控制计算成本,我们采用了“多分辨率策略”:第一层用快速但粗糙的分子对接(如Glide SP),筛掉明显不结合的分子;第二层用基于图神经网络的评分函数(比如我们自训练的GNN,比传统打分函数精度高但计算量适中),对初步筛选出的分子重新排序;第三层才用自由能微扰或分子动力学模拟进行精细评估,但只针对top几十个分子。这个流水线把单轮筛选时间从几周压缩到几天,同时保持了筛选准确率在80%以上。如果Odin想做通用模型,建议他考虑类似的分层设计,而不是试图用一个模型同时满足精度和速度。
再说一个踩坑经历。我们曾尝试用生成对抗网络生成新的抗体序列,目标是提高对特定抗原的亲和力。GAN训练了两个月,生成的序列在计算指标上看起来很美(比如高多样性、低重复率),但实际表达时几乎全部沉淀,因为模型没有学习到抗体的溶解性和稳定性约束。后来我们改用了基于扩散模型的生成框架,并在损失函数中加入了来自实验数据的溶解性评分,才让生成序列的成熟率从5%提升到30%。这个经历让我意识到,在AI4S中,模型设计不能只看“预测对”,还要看“可落地”。Odin他们如果只关注论文指标的提升,而忽略实际可合成性、可表达性、稳定性等工程约束,最终的产品很可能只是学术玩具。
最后聊聊Odin创业这件事本身。26岁辍学做AI4S,说实话,勇气可嘉但风险极高。我见过不少类似的创业者,往往在融资初期靠故事拿到钱,但到了产品验证阶段,因为数据和工程问题解决不了,最后要么转型做服务,要么被大厂收购。当然,大厂也在布局,比如DeepMind的AlphaFold、Meta的ESM系列,它们有海量算力和数据优势。初创公司要想突围,必须找到大厂不愿意做或做不好的细分领域,比如罕见病药物靶点、个性化治疗的分子设计等,利用灵活性和垂直领域深度来构建壁垒。
不过话说回来,Odin这种热血创业也有积极意义——它倒逼传统计算生物学界重新思考“模型+实验”的协作模式。以前做计算的人只管跑模拟,做实验的人只管做实验,现在大家必须坐在一起设计实验来验证模型。这种交叉融合本身就是进步。我认识的一些传统课题组的PI,以前对AI嗤之以鼻,现在也开始主动学习Transformer和GNN,这确实是Odin们带来的改变。
回到帖子里的两个问题。第一,现阶段AI4S创业者确实存在过度迷信“通用模型”的倾向,但这不是Odin一个人的问题,是整个领域在泡沫期常见的现象。关键在于,通用模型需要定义清楚“通用”的边界:是通用在数据模态上,还是通用在任务类型上?我认为更理性的路径是,先针对一个具体问题(比如蛋白质-小分子相互作用预测)做出极致效果,再横向迁移到其他问题,而不是一上来就想统一所有生命规律。第二,预测精度和计算效率的平衡,没有银弹。我的建议是,在模型设计阶段就把“推理速度”作为优化目标之一,而不是等模型训练好再去压缩。比如,使用知识蒸馏将大模型压缩成小模型用于高频筛选,或者设计轻量化的注意力机制(如Linformer、Performer)来降低计算复杂度。具体到代码层面,我推荐用PyTorch的torchscript或ONNX对模型进行推理优化,结合GPU批处理,通常能获得5-10倍的速度提升。
总之,AI4S的落地需要耐心和资源,不是靠一腔热血就能解决的。Odin如果真的想做,建议他先扎进一个具体的生物学问题里,和湿实验团队紧密配合,用半年到一年时间跑通一个完整的数据-模型-验证闭环,证明模型能产生可复现的实验结果。如果连这一步都做不到,后面的“通用模型”就是空中楼阁。作为同行,我期待看到他真正拿出有说服力的案例,而不是停留在融资阶段的PPT上。毕竟,生命底层规律不是靠热血能解的,但靠扎实的工程和跨学科协作,总有一天能摸到边。
这个问题很有代表性,蹲一个靠谱的答案。
关注这个问题,我也在找答案。
干过AI4S的都知道,这行最大的坑不在算法,而在数据与湿实验的闭环成本。Odin想用通用模型一步到位,但分子互作的非平衡态动力学和热力学约束,目前连专门的力场模型都很难收敛。说实话,他要是能把英灵殿做成一个高效的“干湿实验协作平台”,解决数据生成与验证的自动化,可能比直接挑战底层规律更务实。
同感,看到这篇报道的时候我也愣了一下。26岁辍学搞通用生命模型,这魄力是有的,但说实话,我第一反应也是“这饼画得有点大”。
你提到AlphaFold3那个点特别戳我。AF3在静态结构预测上确实牛,但一涉及到动态互作、多体协同这些真正关乎“生命底层规律”的东西,还是差口气。我最近正好在啃一篇关于蛋白质-配体结合自由能计算的论文,里面反复强调“构象系综”和“溶剂效应”这些细节,光是处理一个体系的MD模拟数据就要跑几周,更别提泛化到整个生命分子宇宙了。Odin想用一个通用模型把从预测到验证的全链路打通,这中间数据标注的稀疏性、湿实验验证的成本壁垒,说实话不是靠热血就能跨过去的。
我比较好奇的是,他团队目前到底在哪个尺度上验证?是拿已经发表的晶体结构做回溯性测试,还是真的在跟有湿实验条件的实验室合作做前瞻性预测?因为如果只是纯计算模拟,那跟目前很多AI4S初创公司做的“炼金术”式优化没啥本质区别。反过来,如果真想做到“生成并验证”,那光一个闭环验证的周期可能就得按年算,26岁辍学这个时间窗口够不够烧?
另外,他说的“通用模型”具体指什么架构?是类似Foundation Model那样先用大量无监督数据预训练,再在下游任务微调,还是想直接端到端学一个统一表征?这两个路线在医药领域的落地难度天差地别。有没有公开的技术博客或者代码仓库可以看看?这种激进目标,光靠报道里的宏大叙事,确实让人心里打鼓。
说实话,看完这篇报道的第一反应跟你差不多。AI4S现在确实被资本和媒体炒得有点过热了,但Odin这个case,我觉得最值得讨论的不是他辍学这件事本身,而是他那个“通用模型”的定位。
你提到AlphaFold3,我补充一个点:AlphaFold之所以能在结构预测上取得突破,很大程度上是因为它聚焦在一个相对“干净”的问题上——蛋白质序列到静态结构的映射,而且有PDB这种高质量、大规模、标准化的数据底座。可一旦涉及到分子互作、动态构象变化、多尺度耦合这些“生命底层规律”,数据稀疏性、噪声水平和实验验证成本直接指数级上升。我去年跟一个做冷冻电镜的团队聊过,他们光是处理一个复合体的构象异构体数据,就花了8个月做标注和清洗。Odin说要构建通用模型,那他打算怎么解决数据层面的“长尾”问题?靠合成数据还是主动学习?这个没交代清楚,我猜他自己也可能还没想透。
另外还有个现实困境:即使模型在预测层面做得很漂亮,湿实验验证的周期和成本依然是卡脖子的。我之前跟一个AI制药的CTO聊,他们说现在最头疼的不是模型精度,而是“AI说能结合,lab测出来不work”的落差感。Odin如果真想从预测走到生成再走到验证,那他不光要搞定算法,还得搞定一套闭环的实验验证体系——这个投入,说实话,26岁单靠热血和融资是撑不起来的。
不过话说回来,如果他能先把某个细分场景(比如特定靶点的分子生成)做到可重复验证,再谈通用性,那我觉得还是有机会的。就怕一上来就喊“解码生命”,容易把路走窄了。
做药物分子设计的老哥来握个手。你提到数据标注和模型收敛那段太真实了,我之前搞过一个小分子的binding affinity预测,光是在PDB库里筛可用的晶体结构就滤掉了一半,然后还得自己补做MD模拟生成负样本,前前后后折腾了四个月,结果模型在外部测试集上R²才0.6出头。Odin那个“从预测到生成再到验证”的闭环,听上去很美,但中间每个环节的误差放大效应在生物体系里是灾难性的——你预测的分子结构稍微偏0.1埃,到后面结合自由能计算就完全没谱了。
AlphaFold3那个动态互作瓶颈我深有体会,我试过用它预测一个蛋白-小分子复合物的构象变化,输出的静态结构跟实验测的RMSD确实低,但一旦涉及到配体诱导的loop区重排,它直接就懵了。Odin想用一个通用模型搞定这些,我觉得他可能低估了生物系统里multi-scale耦合的复杂度——电子尺度、原子尺度、残基尺度、细胞尺度,每个层级的规律都不一样,强行用一个架构去统一,大概率会在某个尺度上欠拟合。
另外他那个“英灵殿科技”的名字倒是挺中二,但26岁辍学搞这个,大概率是没经历过湿实验验证的毒打。我这边上一个项目的湿实验验证,光一个靶点的体外活性测试就花了八万块,等了三周拿到阴性结果,整个模型得重新调。他要是真想做通用模型,至少得先跟药企CRO搭个合作,不然光靠公开数据集跑出来的结果,发发文章还行,落地就是空中楼阁。
数据标注和湿实验验证这块确实太真实了。我之前在组里搞过一个蛋白-配体结合预测的项目,光是把公开数据库里的异构体数据清洗干净就花了两个月,最后还是发现很多标签是错的,模型训出来泛化能力一塌糊涂。Odin说的“从预测到生成再到验证”闭环,听着很性感,但实际跑一遍就知道,验证环节根本绕不开生物实验室的周期和成本,这不是堆算力就能解决的。
AlphaFold3那个动态互作瓶颈我深有体会。静态结构预测和动态过程模拟完全是两个世界,哪怕用上扩散模型,目前也很难处理构象变化的连续性和多体协同效应。他说的“通用模型”要能理解生命底层规律,我觉得至少得先解决三个现实问题:一是怎么在缺乏高质量动态数据的情况下做预训练,二是如何把湿实验反馈低成本地融入模型迭代,三是验证标准能不能从单一指标走向多维度生物相关性验证。
我倒不是否定这种探索,只是觉得26岁辍学赌这么大,如果没有现成的实验室合作资源和足够的资金抗风险能力,很容易变成“先画饼再补饼”的局面。之前见过几个类似项目,最后都卡在验证环节烧光经费。他要是真想做,不如先聚焦某个具体分子互作类型,比如转录因子-启动子结合,把闭环跑通一个点,再谈通用。不然热血归热血,生命科学的底层规律不是靠算法狂飙就能捅破的。
你这帖子看得我直点头,确实,读完那篇报道我也觉得有点太“热血”了。尤其是“通用模型理解生命底层规律”这个提法,听着就让人想起当年谷歌说要用AI解决一切,结果现在连个稳定的蛋白质折叠预测都还在跟动态互作较劲。你说的数据标注和湿实验验证这些坑,我太有同感了,之前我们组做个小分子亲和力预测,光是清洗公开数据集里的噪声就花了三个月,最后模型精度还卡在0.7上不去,真不是光有算力和决心就能解决的。
不过我好奇一个具体问题:Odin提到的“从预测到生成再到验证”这个闭环,你觉得他团队在“生成”这一步上有没有可能绕过湿实验,比如先通过干实验的虚拟筛选来快速迭代模型?毕竟现在像DiffDock那些方法虽然慢,但好歹能给出一些可验证的构象。另外,他声称要构建的通用模型,是指类似AlphaFold那种针对单一任务的模型,还是真的想搞一个能同时处理分子结构、相互作用、甚至细胞信号通路的统一架构?如果是后者,那训练数据怎么拼起来就是个天大的难题,不同尺度下的数据格式和噪声特性完全不一样,我猜他大概率会先用某个细分领域(比如抗菌肽设计)做验证,不然这饼画得也太大了。你觉得他团队的实际技术储备真能撑起这个目标吗?
搞过药物分子设计的来冒个泡。你说到数据标注和模型收敛折腾大半年,这我太有共鸣了。我们团队之前做蛋白-配体结合模式预测,光是清洗PDB库里的低分辨率结构就花了三个月,更别提那些实验数据里的噪声,动不动就把模型带偏。Odin那个“从预测到生成再到验证”的闭环,听着很美好,但实际操作里湿实验验证这一步,时间和资金成本能把人拖垮。我们跟药企合作过,一个湿实验周期至少四到六周,成本几十万起,这还只是验证一个候选分子。他想用通用模型打通分子结构到生命规律,这个野心确实像AlphaFold3刚出来时的宣传,但AlphaFold在动态构象变化上到现在还是短板,比如同源二聚体的变构调节,预测和实验对不上是常态。
我比较好奇的是,他团队有没有足够多的湿实验资源做闭环?靠纯计算跑出来的结果,没有大量高质量实验数据反馈,模型很容易过拟合到现有知识上。另外,他说的“生命底层规律”具体指什么尺度?是分子层面还是细胞层面?这两者建模需要的特征空间完全不一样。我建议他先别急着喊通用,先聚焦一个具体问题,比如某个特定信号通路的分子互作,把数据闭环跑通了再谈扩展。不然烧钱太快,投资人没耐心看“底层规律”这种大词。
这点确实说到痛处了,AlphaFold3在静态结构上惊艳,但一到动态互作就卡壳,更别说还要反向生成有功能的分子了。我好奇的是,Odi
n团队有没有公开过他们用来训练“生命底层规律”的数据具体来自哪些实验模态?光靠公开数据库做预训练,感觉很难绕过数据稀疏和噪声问题啊。
确实,从预测到生成再到验证这个闭环,湿实验的周期和成本才是最大的坎。好奇他团队现在具体在哪个环节卡住了?是数据获取、模型收敛还是验证手段?如果真打算跳过湿实验做纯计算模拟,那怎么保证生成结果的生物学合理性呢?
这帖子说到点子上了。Odin那个case我也看了,第一反应跟你差不多——AI4S这波热潮里,太多人把“通用模型”当成万能钥匙了。AlphaFold3确实牛,但它的成功恰恰建立在几十年结构生物学积累的PDB数据库上,而且是静态结构预测。生命底层规律这玩意儿,动态互作、多尺度耦合、时序调控,这些才是真正的硬骨头,目前连用MLP拟合局部势能面都还没完全搞定。
你说数据标注和模型收敛折腾大半年,这我太有共鸣了。干过湿实验的人都知道,分子层面的ground truth有多难拿。单说一个蛋白-配体结合自由能的计算,DFT跑一次就够喝一壶的,更别提要生成可训练的数据集。Odin要搞“从预测到生成再到验证”,这闭环里湿实验的验证成本才是真正的无底洞。他团队有配套的合成生物学平台吗?还是说打算全部外包?如果全靠外包,那迭代周期会被拖死。
我比较好奇的是,他说的“通用模型”具体指什么架构?是类似GNN+Transformer的混合体,还是想用扩散模型直接生成生命分子?如果是后者,那生成的可合成性和生物正交性怎么保证?这跟图像生成完全不是一个量级的约束条件。
说到底,AI4S现在最缺的不是热血和愿景,而是能把干湿实验闭环跑通的工程化能力。Odin要是能拿出一个在特定模块上(比如非共价相互作用预测)超过现有SOTA的benchmark,那比任何宏大叙事都有说服力。不然的话,这个故事大概率会卡在数据飞轮转不动的阶段。
这个观点挺实在的,我自己也在做类似方向,湿实验那部分确实烧钱又耗时。想问下,你觉得抛开数据标注和验证成本,Odin提出的“从预测到生成”这个路线本身,在模型架构上有多大可行性?比如他们打算怎么处理动态互作的时序建模问题,还是说只是拿现有Transformer套个壳子?
搞过AI4S的都懂,光数据这关就能卡死人。我去年跟一个做蛋白质-配体结合的项目,光是清洗PDB里的低质量结构就耗了两个月,好不容易跑通一个GNN模型,结果预测的binding affinity跟实验值一对比,R²才0.3。后来才明白,很多公开数据库里标注本身就带噪声,模型学到的可能只是实验误差的分布。Odin说的“从预测到生成再到验证”确实是理想路径,但“验证”这两个字背后是湿实验室的真金白银和半年起步的周期。他一个26岁辍学的创业者,资金链能撑到第几轮?再说通用模型这事,我认同你的怀疑——生命系统是层级嵌套的,从分子到细胞到组织,每个尺度上的物理化学规律都不一样,一个模型想在所有尺度上统一表征,目前连理论框架都还没成熟。AlphaFold3能做到静态结构预测已经很牛了,动态互作加了那么多约束条件依然容易出非物理解。我倒觉得,与其一开始就喊“解码生命底层规律”,不如先盯着一个具体问题打透,比如某个特定靶点家族的分子生成,把闭环跑通再扩展。创业者有情怀是好事,但AI4S这种高门槛赛道,光靠热血和愿景真不够,得有一堆硬核的领域知识和工程落地能力托底才行。
这帖子说到点子上了。Odin那篇报道我也看了,第一反应跟你差不多。搞AI4S的创业者这两年见的不少,但大多数连“数据-模型-验证”这个闭环的门槛都没摸清楚,就敢喊“解码生命底层规律”。说实话,AlphaFold3到现在都没完全搞定动态互作,更别提他们那种“从预测到生成再到验证”的一体化闭环——这中间每一步都是天坑。
你提到的数据标注和模型收敛问题,我太有同感了。尤其是分子互作这块,实验数据噪声大、分布稀疏,很多公开数据集根本不够用。光靠少数几类蛋白-配体结构,训出来的模型泛化能力堪忧,换个体系直接崩。更别说湿实验验证的成本,不是烧钱就是烧时间,初创公司哪扛得住这么大现金流压力?
我比较好奇的是,他那个“通用模型”到底打算怎么绕过数据瓶颈?是准备用大规模自监督学习补数据,还是跟高校实验室搞定向合作?如果只是堆算力、刷benchmark,那跟当年AI制药泡沫里那些公司有什么区别。另外,“从预测到生成”这一步,生成结果的可信度怎么保障?现在很多生成模型出来的分子结构看起来合理,但合成路径和成药性完全没谱,这可不是“热血”能解决的。
建议你多关注他们实际落地的验证环节,如果连一个完整的实验验证案例都拿不出来,那基本就是PPT融资的节奏。生命科学领域的AI应用,永远是一分实验数据一分钱,模型只是放大器,不是创造者。