学术道义与社会职责——呼吁即时公布和共享2019-nCov测序数据

■ 吴仲义

《国家科学评论》(National Science Review，NSR)生命科学评审组长

■ 蒲慕明

《国家科学评论》(National Science Review，NSR)执行主编

□翻译：吕雪梅（中国科学院昆明动物研究所）

2020年伊始，由SARS-CoV-2 (原称2019-nCov) 病毒引发的COVID-19 (2019冠状病毒病) 席卷全国。两周前，疫情日益严峻，我们曾呼吁同行，将此病毒的基因组数据尽快公开[1]。因为这些数据对全球公共卫生安全有重大意义，国际学术界也通过不同渠道紧急敦促数据共享[2]。然而事与愿违，需求越来越迫切，而国内数据的发布却非常缓慢。

现在，我们再次呼吁加快新冠病毒的数据发布速度。基于专家初步分析病毒进化的结果，我们有更充分的理由重复前述倡议（请参阅致谢部分，本文对相关研究结果的引用皆得到许可）。在疫情防控的关键时期，及时发布病毒数据更该是我们的道义和责任。希望学术界能够促进数据的传播与共享，避免不必要的发布延误。

病毒的进化

根据进化的基本原理，病毒感染人群后可能会发生快速演变——这是迅速公布数据的关键科学依据。自然选择偏好高传染力的突变，进而增强了毒株的进化优势。而病毒传染力增强，也有可能伴随着毒力降低。17年前，这样的进化规律已经在SARS的爆发中得到过例证[3]。在2002年至2003年的流行周期中，SARS病毒早期的传播速度较为缓慢（2002年11月24日~2003年1月30日），在流行中期迅速增快（2003年2月）。这一趋势延续了几个月直至疫情晚期。传播加速与病毒DNA序列的改变息息相关；尤其是病毒S蛋白在传播前期快速积累了5个氨基酸突变。这说明SARS病毒从果子狸跃染到人之后，经历了一系列的遗传适应性改变。

本次COVID-19的防控可以借鉴SARS的经验，但也可能有相当的不同。因此，如果快速发布病毒基因组数据，我们通过对比2019-nCoV与SARS-CoV得以尽快了解它们进化动态的差异。目前临床分析已经揭示了两场流行病的特征有诸多不同，基因组的分析迫在眉睫。

2019-nCoV的缓慢进化可望稍慰人心

目前，病毒在人群中进化的初步分析（崔杰、陆剑，未发表的研究）仅能基于有限的公共数据(https://www.gisaid.org/)。截至2020年2月10日，共有55条2019-nCoV的病毒基因组可公开获取。其中，在1月22日以前获取的31份测序数据几乎全部来自于中国（仅有1例来自于美国）。然而1月22日以后，余下的24份数据一律源于境外，包括日本、韩国、新加坡、澳大利亚、美国、法国、英国等。数据背景的断层，使我们很难在时间与地理上找到连续的规律。数据不规范公开的趋势彰显了学术界的矛盾。

目前的分析结果提示了几个重要的科学问题。最关键的是，“2019-nCoV是否在人群中持续的进化？” 如果这一问题的答案是否定的，病毒没有快速变异，对于抵抗疫情是个定心丸。从疫情刚开始至2020年2月早期，病毒的变化是相对缓慢的。出现在多例样本中（>=2）的氨基酸突变只有8个。更重要的是，这些突变的分布与 “沉默”突变（没功能效应的突变）非常相似。这说明，2019-nCoV在传播的过程中没有发生剧烈的适应性变化，这与2002 年SARS病毒非常不同。

简单的说，2019-nCoV可能在野生动物与人之间已经“磨牙”好些时候了，现已进入适应性进化的迟缓期了。我们希望这个推测是对的。如果得到证明，也许可以缓解公众的不安。

隐现危机的可能性

虽然看起来病毒似乎进化迟缓，但是有一些信号不能掉以轻心。首先，大部分的氨基酸序列突变都出现在近期国外报道的数据中，隐示病毒也许正进化中。其次，8个氨基酸序列突变是成簇出现的，一个突变似乎促进另一个突变的发生。第三，尤其需要警惕的是位于病毒ORF8基因中28144位点上的突变—— 在1月5日以前于武汉采集的13例样本中只出现了1次（7.8%），但在1月10日之后于武汉之外采集的42例样本中，出现了18次（43%）。这样的跃变看起来很惊人，但样本数量不够大，统计学上未必可靠。我们需要更多的数据来查清楚这个突变是否是个危险讯号。另一个突变，在55例样本中仅出现了五次：橙县（CA2/2020，美国）、巴黎（IDF0373, 0373/2020，法国）、高雄（2/2020，中国）、克莱顿（VIC01/2020，澳大利亚），但全部是在大陆境外。这也是值得密切关注的。

最坏的可能性是，经历了两个月的“慢进化”模式之后，2019-nCoV“摸索”出了进化的途径，开始蠢蠢欲动。SARS病毒进化的第一阶段也恰好是两个月。上面两个推测，不确定性都很高。因为样本数实在不够大。只有完整并及时地发布数据，才有可能尘埃落定。

数据（不）公开的文化根源

数据共享与否背后有科学文化的不良背景。新发布的数据主要来自于国外而不是疫情严重的国内。关于测序数据是否应该公开发布和自由获取，在国内网络上颇有争论。根源在于如何保护研究贡献、影响知识产权。更具体来讲，国内学术界对于所谓“高影响因子期刊”发表文章的强烈需求，远远超乎国际的惯例[4]。扣留数据其实也反映了国内论文发表的评价体系。一篇论文不管是在A期刊还是B期刊上发表，还是同一篇论文。

研究人员对“高分期刊”过度看重的不良风气，在这次疫情里已显示不仅仅是学术圈内的问题了。扣留数据通常不会干扰社会的正常运行，但在当前的危急情形下，影响会是严重而深远的。的确，第一批发布病毒序列的论文阐明病毒有人传人的可能，但是没及时告知社会。未来回顾这次疫情，这几天的延迟可能是关键。

关于科研人员道义责任的几点提议

鉴于当前疫情的严峻形势，选择不公开病毒相关的数据是有悖科研道德的。应对数据发布，国内已经建立了一些开放数据库（例如https://bigd.big.ac.cn/，https://db.cngb.org，或开放数据分析平台（例如https://fight-sars2.genowis.com) 。学术期刊，包括《国家科学评论》(National Science Review)，应该采用“胡萝卜加大棒”的方式促进数据的发表。一方面（胡萝卜），我们建议期刊接收发表初步处理的组学数据[1]。更进一步，基于先期提交的数据完善的分析结果（即便没有新的数据产出），也应该随后继续接收。另一方面（大棒），期刊应当对那些隐瞒公共卫生安全数据的论文严肃对待，拒绝发表这种不道德学术行为的研究。正如不符合动物实验伦理的研究无可转圜地拒稿，隐瞒对公共卫生安全至关重要数据的行为，业内更应该秉持零容忍的态度。

致谢

数据分析由中国科学院上海巴斯德研究所崔杰研究员指导的课题组完成，并得到了北京大学陆剑教授课题组的补充；中国科学院昆明动物研究所吕雪梅研究员课题组对本文提供了宝贵的意见；志诺维思（北京）基因科技有限公司凌少平博士提供了组学数据分析平台。为避免致COVID-19与SARS的病毒名称混杂，我们使用2019-nCoV的旧名，最新定名应为SARS-CoV-2。

点击下方“阅读原文”可读英文原文：

Moral imperative for the immediate release of 2019-nCoV sequence data

参考文献：

[1] Wu CI, Poo MM. Natl Sci Rev 2020; Very fast evolution, not-so-fast publication – A proposed solution. https://doi.org/10.1093/nsr/nwaa010

[2] Nature Editorial. Calling all coronavirus researchers: keep sharing, stay open. Nature 578, 7 (2020). https://doi.org/10.1038/d41586-020-00307-x.

[3] He JF, Peng GW and Min J et al. Science 2004; 303:1666-1669.

[4] Wu CI, Poo MM. Natl Sci Rev 2017; 4:518-519. What went wrong in science publishing?

来源：中国科学杂志社