AI数错病毒序列90年？生物数据老城跑不动智能体汽车

当顶级AI编码智能体一日千里，到了生物学领域却频频翻车，原因并非模型不够聪明，而是科学数据库至今只为人类点鼠标而建。Anthropic近日发布的科学博客《为生物学智能体铺路》揭示了一个令人后背发凉的事实：当前最强的科研智能体——Claude、GPT、Biomni、Edison Analysis——在NCBI Virus数据库里数病毒序列时，没有一个能稳定答对。更离谱的是，同一道题、同一个模型、同一段提示词，问三次，答案能差出几十倍。Claude Sonnet 4检索埃博拉病毒序列，第一次返回106条，第二次15条，第三次5条，而正确答案是266条。这背后藏着一个扎心的真相：智能体真正的短板并非推理，而是它压根没有一条稳定、可复现、机器能走的路去把数据准确取出来。无专用检索层时，各家系统的平均准确率从16.9%一路散到91.3%，而这类任务的及格线实际上是100%。少一条记录，可能让一个诊断试剂看起来覆盖了所有流行毒株，或者让一场疫情的起点被推算错好几周。Anthropic给了一个特别形象的比喻：用智能体去跑生物数据库，就像开车穿越一座汽车出现之前建好的老城。街道也许优雅、讲究，但全是为马车设计的窄巷急弯。零散的数据库、千奇百怪的文件格式、一次性的检索脚本，都是这座老城的一部分。你可以给它加点交通标志、辟几个停车场、拓宽一两条路，但底层的城市布局，从一开始就不是为汽车准备的。软件的世界正相反，它是一座为车而建的新城：平整的柏油路、清晰的车道、标准化的信号灯，版本控制、文档齐全的API、包管理器，一整套让你从起点高速直达终点的系统，天生就为智能体铺好。所以代码智能体一日千里，生物智能体却原地打转。软件领域给出的是结构化的数字工作流和可靠接口，一个GitHub issue就能生成补丁、跑通测试、当场验证；生物领域给出的却是脆弱、异质、依赖具体流程的基础设施，几乎没有简单、可验证又有意义的奖励信号。具体到NCBI Virus，麻烦更加明显。它本质上是一个网页门户，你在网页上勾选条件——宿主是人类、采样地在非洲、序列长度大于某个值、排除实验室传代样本——网站后台才把这些条件翻译成对底层多个数据库的查询，再把结果筛出来给你。它的大量过滤逻辑写在网页这一层，没有对外开放成一个干净的程序接口。对于人类病毒学家，这只是浏览器里点几下的事；对于机器，这简直就是灾难。因为智能体能直接调用的底层API——REST、Datasets、E-utilities——并不暴露和网页一模一样的过滤语义。举个例子：网页上“采样地在非洲”是一个勾选框，背后可能要把几十个国家的元数据字段对齐，还要处理那些字段写法不统一的记录；“含表面糖蛋白”这种条件，光靠序列本身判断不了，得再去GenBank把每条记录的基因蛋白注释拉回来比对。这些隐性步骤网页帮你做了，但原始API不帮你做，于是智能体只能自己“猜”着把这套逻辑重新拼一遍，拼漏了就少计算，拼错了就多计算。如果你觉得“数错几条序列”无伤大雅，下面这个现场会改变你的看法。2026年5月，刚果（金）爆发邦地布焦型埃博拉疫情。5月14日，金沙萨的INRB分析了13份血样，次日确认其中8例，到5月29日，WHO报告确诊与疑似病例已超1000例，死亡逾200人。研究者面前摆着三个生死攸关的问题：这次的病毒和以往差多大？现有诊断还测得出来吗？现有疗法还管不管用？回答这些，都要把新基因组和NCBI Virus里的历史埃博拉基因组逐一比对，而这套分析的第一步，恰恰就是手动点网页、手动复现一长串复杂过滤条件，再祈祷拉出来的数据准确无误。一条序列之差，可能让诊断试剂漏掉关键毒株，让疫情起点推算偏移数周。Anthropic的博客暗示，解决之道在于为生物数据库重建“汽车能跑的路”——把网页界面里藏着的过滤行为重新实现成稳定、可复现的程序化系统，让智能体不必每次再去猜一遍。对于AI从业者而言，这不仅是技术挑战，更是一个巨大的机会：谁能率先构建起生物领域的标准化基础设施，谁就能在下一波科学智能体浪潮中占据先机。

AI数错病毒序列90年？生物数据老城跑不动智能体汽车

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%