超十万种新病毒藏身旧基因数据

来源: 中国科学报

现实告诉人们,仅仅一种病毒就能使世界经济陷入瘫痪,导致数百万人死亡。而病毒学家估计,目前仍存在数万亿种未知病毒,其中许多是致命的,可能引发下一次疫情大流行。

最近,通过对数量空前的现有基因组数据进行筛选,科学家发现了10万多种新病毒,其中包括9种冠状病毒和300多种与丁型肝炎病毒(可导致肝衰竭)有关的病毒。日前,相关成果发表于《自然》。

2020年初,加拿大计算生物学家Artem Babaian想知道,除了引发新冠肺炎疫情的病毒之外,现有的基因组数据库中还有多少种冠状病毒。因此,他和超级计算机专家Jeff Taylor搜集了云基因组数据。这些数据被存储在全球序列数据库中,由美国国立卫生研究院研究所上传。截至目前,该数据库包含了16拍字节的存档序列。

为了筛选大量数据,Babaian和Taylor设计了一套专门用于搜索云数据的计算机工具。该方法速度足够快,每天可以处理100万个数据集,每个数据集的计算成本不到1美分。他们最终发现了近13.2万个RNA病毒的部分基因组。

新数据库并没有每种新病毒的完整序列,但研究人员可以利用部分序列来构建家谱,从而揭示不同病毒之间的关系,以及它们是如何进化的。他们还可以利用数据库找出特定病毒的发现地点和宿主。

“我们已经把这个数据库变成了一个巨大的病毒监控网络。”Babaian说。团队已经创建了一个公共存储库,存储开发的工具及相应结果,以方便其他人使用。(文乐乐)

相关论文信息:

https://doi.org/10.1038/s41586-021-04332-2

标签: 新病毒 部分基因组 丁型肝炎病毒 病毒学家 新冠

精彩放送

热文