《自然》杂志在2月3日发表新闻:其他研究人员表示,最大的SARS-CoV-2基因组平台的限制鼓励了快速共享,同时保护了数据提供商的权利。
图片来源:Martin Krzywinski / SPL
文章指出:数以百计的科学家敦促应更开放地共享SARS-CoV-2基因组数据,以帮助分析病毒变异体如何在世界范围内传播。自2020年1月以来,研究人员已经在网上发布了大量的SARS-CoV-2基因组序列。最流行的数据共享平台GISAID现在拥有超过45万个病毒基因组(感兴趣的人员自行查看文末)。世界卫生组织(WHO)的首席科学家SoumyaSwaminathan 称其为大流行的“游戏规则改变者”。但是,它不允许公开共享序列,这阻碍了人们了解冠状病毒和新变种的迅速崛起。
位于英国剑桥附近的欧洲生物信息学研究所(EBI)联合主任Rolf Apweiler认为:“ SARS-CoV-2序列数据的开放性对于在非常非常长的时间内快速响应对人类最大的健康威胁至关重要。”
在1月29日发布的一封信中,Apweiler和其他研究人员呼吁研究人员将其基因组数据发布到一个对数据再分配没有任何限制的三合一数据库中:美国GenBank,EBI的欧洲核苷酸档案(ENA)和日本DNA资料库,统称为国际核苷酸序列数据库合作组织(INSDC)。
任何人都可以匿名访问INSDC的数据并根据需要使用它们,但是GISAID要求用户确认其身份,并同意在未经数据提供者许可的情况下不重新发布该站点的基因组。这意味着以GISAID数据为基础的研究(例如那些创建进化树以分析SARS-CoV-2变体之间的关系的研究)无法发布完整数据,以使其他人可以轻松地检查其分析或进一步建立在其数据集上。他们必须将读者引导回GISAID网站。
这封信说,科学界应该“消除限制有效数据共享的障碍”,但没有特别提及GISAID。它由500多位科学家签署,其中包括2020年诺贝尔化学奖获得者Emmanuelle Charpentier和英国COVID-19基因组学联盟的负责人Sharon Peacock。信中指出,如果科学家已经建立了向其他数据库的提交,“这些提交应并行进行”。
那好处有哪些呢?如:使用GISAID的好处是有好处的,因为它们鼓励犹豫不决的研究人员迅速在线共享数据,而不必担心其他人会无偿使用结果。
新加坡科学,技术和研究局的生物信息学家塞巴斯蒂安·莫拉尔·斯特罗(Sebastian Maurer-Stroh)表示:“这么多实验室之所以向SAISA-CoV-2基因组提供GISAID的原因,是因为数据访问协议限制了公共转售。” 他说,GISAID已与许多实验室合作,以帮助他们共享数据。
“这个问题不仅关乎科学,而且关乎主权和平等,”法国国家健康研究机构INSERM的疫苗研究员Marie-Paule Kieny说。她说:“ GISAID使SARS-CoV-2序列数据的快速流动具有最大的影响力,”因为存储序列的科学家们可以相信,其权利将受到数据用户的尊重。
但是,在低收入国家中的研究人员看来,花费更多的时间生成数据并没有获得相应赞誉,因为较富裕国家的学者不参考数据提供者的情况而忽略了低收入国家的冠状病毒数据。
除此之外,数据下载也存在相应的难题:
除了有关公平性和开放性的争论外,GISAID对注册用户如何下载其数据的差异控制还有一个问题。例如,某些用户必须小批量下载文件,但其他用户则可以在获得GISAID批准的情况下批量获取整个数据集。GISAID发言人说,这是因为该计划需要知道谁在使用其数据以及出于何种原因,因此不会错误地进行任何重新分配。
使用GISAID平台的另一个挑战是研究人员通过从测序仪读取的数据块(而不是原始数据)发布病毒基因组的“集合”或重建。Cochrane说,装配过程总是涉及对测序过程中不可避免的错误的某种解释,这可能导致看起来像基因组中的突变,实际上是测序的假象。。访问许多基因组的原始数据有助于科学家深入研究这些问题,科克伦说,研究人员应该共享他们的原始和组装的测序数据,即使他们也将其发布在GISAID上,他们也可以在INSDC上进行。
综上所述,数据开放存在的利弊都需要得到更好的解决,但是在新冠大流行期间,暂时放弃某些条款也是一个选择。
本期知识点:病毒数据库的可获取来源,你学会了吗?
GISAID: https://www.gisaid.org/
INSDC :http://www.insdc.org/