科学家呼吁完全开放共享冠状病毒基因组数据
数以百计的科学家敦促更加开放地共享SARS-CoV-2基因组数据,以帮助分析病毒变异是如何在世界各地传播的。
据《自然》杂志报道,自2020年1月以来,研究人员在网上发布了大量的SARS-CoV-2基因组序列。最受欢迎的数据共享平台GISAID目前拥有超过45万个病毒基因组。世界卫生组织(WHO)首席科学家Soumya Swaminathan称其为流感大流行的“游戏规则改变者”。
但是,位于英国剑桥的欧洲生物信息学研究所(EBI)联合主任罗尔夫·阿普韦勒(Rolf Apweiler)认为,该研究所拥有自己的大型基因组数据库,其中包括SARS-CoV-2序列,该研究所不允许序列被公开共享,这阻碍了人们对冠状病毒和新变种迅速崛起的研究。
阿普韦勒介绍说:“SARS-CoV-2序列数据的开放性对于在很长一段时间内快速应对人类最大的健康威胁至关重要。”
在1月29日发布的一封联名信中,阿普韦勒等人呼吁研究人员将他们的基因组数据发布在三个数据库中的一个,这些数据库对数据的再分配没有任何限制:美国基因库(GenBank)、EBI的欧洲核苷库(ENA)和日本DNA数据库,这些数据库统称为国际核苷酸序列数据库合作组织(INSDC)。
56个SARS-CoV-2基因组的可视化。Martin Krzywinski/SPL图片
任何人都可以匿名访问INSDC的数据并根据需要使用它们,但是GISAID要求用户确认其身份,并同意在未经数据提供者许可的情况下不重新发布网站的基因组。这意味着,建立在GISAID数据基础上的研究(那些创建进化树以分析SARS-CoV-2变体之间的关系的研究)无法发布完整数据,以便其他人可以轻松地检查他们的分析或进一步建立他们的数据集。他们必须将读者引导回GISAID网站。
这封信说,科学界应该“消除限制有效数据共享的障碍”,但没有具体提及GISAID。这份报告由500多位科学家签署,其中包括2020年诺贝尔化学奖得主埃曼纽尔·沙尔庞捷(Emmanuelle Charpentier)和英国COVID-19基因组学联盟的负责人莎伦·皮科克(Sharon Peacock)。信中指出,“在科学家已经向其他数据库提交资料的情况下,这些意见应该并行进行。”
功能无瑕疵
许多使用GISAID的研究人员说,GISAID的访问条款有一个好处,因它们鼓励犹豫不决的研究人员迅速在线共享数据,而不必担心其他人会无偿使用结果。新加坡科学技术和研究机构的生物信息学家塞巴斯蒂安·莫拉尔·斯特罗(Sebastian Maurer-Stroh)表示,这么多实验室向GISAID提供SARS-CoV-2基因组,正是因为数据访问协议限制了公共转售。他说,GISAID已与许多实验室合作,帮助他们共享数据。
GISAID是2008年由一个国际研究机构联合会成立的非营利基金会,旨在解决研究人员不愿共享流感病毒株数据的问题。其代表“共享禽流感数据全球倡议”,包括印度尼西亚在内的一些国家是禽流感的热点地区,他们担心制药公司会利用序列数据来制造药物和疫苗,而不向原始数据提供者提供信贷,也不与他们分享这项工作的好处。
但是他们被说服在GISAID上快速共享序列。例如,2013年3月,中国在向世卫组织通报3例人感染H7N9禽流感的当天,在数据库中公布了H7N9禽流感的序列。该倡议的发言人说:“ GISAID鼓励并鼓励不愿共享的各方共享实时数据,以确保他们保留其数据权利。”
“这个问题不仅关乎科学,而且关乎主权和公平。”法国国家健康研究机构INSERM的疫苗研究员玛丽·保尔·基尼(Marie-Paule Kieny)说,GISAID使SARS-CoV-2序列数据的快速流动具有最大的影响力,因为保存序列的科学家能够相信,他们的权利会受到数据用户的尊重。
在达卡儿童健康研究基金会从事SARS-CoV-2基因组研究的微生物学家森朱萨(Senjuti Saha)说,她对GISAID所提供的开放数据的呼吁表示赞赏,但担心这可能会进一步阻止中低收入国家(LMICs)的研究人员在分析数据之前上传数据。
森朱萨说,在流感大流行期间,尽管实验室通常缺乏计算基础设施,但一些LMICS已经开始进行更多的病毒测序。她称,其看到一些富裕国家的学者断章取义地使用LMIC冠状病毒数据,他们不咨询或信任数据提供者。“我们真的很想共享我们的数据,但当我们知道自己如此努力地生成数据却得不到信任时,这让人心碎,失去了动力。”
在基尼看来,这封呼吁联名信似乎是来自欧洲和高收入国家的一项倡议,“它们没有充分了解确保低资源国家接受自由共享序列的迫切需要,从而使诸如SARS-CoV-2等病原体的序列测定对公共健康的影响最大化。”
ENA负责人盖伊·科克伦(Guy Cochrane)说,EBI意识到围绕数据和利益分享的全球性问题,并积极参与寻找利益分享机制,赋予全球“南方国家”能力并保持数据开放。但他表示,即使资源充足的欧洲国家也可以采取更多措施来公开分享数据。
数据挑战
一些研究人员通过《自然》杂志发声。他们认为,除了有关公平性和开放性的争论外,GISAID对注册用户如何下载数据的差异控制也存在问题。例如,某些用户必须小批量下载文件,但其他用户可以在GISAID批准的情况下批量下载整个数据集。GISAID发言人说,这是因为该计划需要知道谁在使用其数据以及出于何种原因,因此不会错误地进行任何重新分配。
盖伊·科克伦补充说,GISAID平台的另一个挑战是研究人员通过从测序仪读取的数据块(而不是原始数据)发布病毒基因组的“集合”或重组。组装总是涉及对测序过程中不可避免地错误的某种解释,这可能导致看起来像基因组中的突变,实际上是测序的假象。
获取许多基因组的原始数据有助于科学家深入研究这些问题,盖伊·科克伦说,研究人员应该共享他们的原始和组装的测序数据,即使在GISAID上发布,他们也可以在INSDC上进行。不过,莫拉尔·斯特罗说,GISAID已经意识到了此类问题,并已提供质量控制检查来标记提交的基因组中潜在的错误。盖伊·科克伦说,这样的过程只能减少而不是消除伪影误差。
一个由EBI托管的数据门户网站汇集了提交给INSDC的完全开放的COVID-19数据集,目前拥有27万多个原始SARS-CoV-2序列和55000个组装的基因组,比GISAID还少。“我们有一个不完整的知识迷雾区。”阿普韦勒说,一些科学家可能会错误地认为,向GISAID提交数据意味着结果将自动在INSDC公开共享——他希望不受限制地共享数据的呼吁将促进INSDC的数据量。
“但是让科学家将SARS-CoV-2数据重新提交给INSDC是一件很复杂的事情。”加利福尼亚大学圣克鲁斯分校负责基因组学研究的大卫·豪斯莱尔(David Haussler)说,生物信息学家正处于危机状态,他们急于获取基因组数据并进行详细分析,希望尽可能多地分享他们被允许发表的有关序列中关键新突变的信息。
豪斯莱尔没有签署这封公开信(尽管他支持无限制数据共享),因为他希望GISAID能够在流感大流行期间暂时取消一些访问条款,也许是为了与INSDC进行协调。
令人担心的是,这可能会导致一些科学家对GISAID失去信任,并且无法如此迅速地将其序列提交数据库。“对于想要这样做的人来说,将序列存放到INSDC中没有任何障碍。”保尔·基尼最后说。
作者:Richard Van Noorden
编译:左林
编注:2020年2月11日,世卫组织将新型冠状病毒感染的肺炎命名为“COVID-19”,国际病毒分类学委员会宣布这种病毒的英文名为“SARS-CoV-2”,但这一名称与SARS疾病之间没有关联。CO代表corona,VI代表virus,D代表disease,19代表2019年。
评论