“水稻基因组”计划:接近真相、接近真理的微观宏伟进步
【代号名称】“水稻基因组”计划
【规范称呼】“国际水稻基因组测序”计划(IRGSP)
【英文名称】The rice genome project
【发起者】日本,中国以及中国台湾地区与美国、法国、韩国、印度等共同参与完成
【行动时间】1998年2月
【目的】多国共同完成的对水稻基因研究的国际科研工程
【背景】
水稻是最重要的粮食作物之一,直接关系到世界一半人口的生活质量。而决定水稻品质与产量的,则是水稻的基因。1993年,基因中心以中国主要栽培品种籼稻广陆4号为水稻基因组研究品系。1996年,中国在国际上率先完成了水稻(籼稻)基因组物理图的构建。更为有价值的是,韩斌研究组在测序4号染色体的同时,还对另一个亚种籼稻广陆矮4号染色体序列进行了测定,通过对两个品种连续长度达230万个DNA碱基对相应序列的同源比较,首次报道了水稻两个主要栽培稻(籼稻、粳稻)间的基因组成、顺序及DNA基因水平上的一些异同,从而揭示了栽培稻间的一些亲缘关系和进化关系。这是中国科学家在水稻基因研究领域的独到贡献。
《自然》审稿人认为:这些数据为将来整个基因水平上的比较提供了一个良好的示范。随后,中国科学家发现,国际上同时进行的水稻基因研究不是以籼稻为主,而是以粳稻为主。所以,中国科学家在国际学术交流中一度遇到冷落。因为国际上的一些科学家估计,籼稻的基因组将比粳稻多出10%,研究成本会更大。
始于1998年,由日本、美国、中国、法国等11个国家和地区发起并参与,是继“人类基因组”研究后的又一个重大国际合作基因组计划。这一计划的目的是,测定水稻12条染色体的基因组序列,最后绘制出全部基因图,以便最终弄清每个基因的功能,揭示水稻遗传信息奥秘,培育抗虫、抗病、抗自然灾害的高产优质水稻,为解决世界粮食问题作贡献。
“水稻基因组”测序计划由日本牵头,日本、美国、中国、法国等国家和地区分别负责一定数量的水稻染色体的测序工作,其他国家如韩国、印度、英国、泰国、巴西参与其中的一些测序工作,整个测序计划于今年12月结束。
中国、日本已分别测序完水稻第4号和第1号染色体,所有测序数据全部公布在国际公共数据库,供各国科学家免费应用。
基因组测序涉及DNA的大规模测序,由于只能采取分而治之的测序基本策略,即将基因组DNA分割成一定大小的片段,然后分别对这些片段进行测序。而遗传图和物理图可作为整个基因组测序的路标,为小片段DNA测序和重叠群构建提供了基础。遗传图谱:自1988年麦肯齐等利用IR34583(籼)×布卢达拉姆(爪哇)的F2群体构建了第一张水稻分子连锁图谱(含135RFLP标记)以来,高密度的图谱相继产生。
1991年,坦克斯利等利用IRAT177(粳)/阿普拉(籼)DH群体构建了第二个RFLP分子连锁图谱;斋藤等也构建了一张包含347个遗传标记的分子连锁图谱。
1994年喀斯等构建了另一张726个RFLP标记分子连锁图谱。仓田等构建了一张包含1384个DNA标记的分子连锁图谱。中国的研究组也先后构建了一些遗传群体。
近年来,随着分子遗传学的迅速发展,“国际水稻基因组”测序计划成员国以“日本晴”、卡萨拉蒂、IR64和“阿苏塞纳”等水稻品种为材料,构建了10个饱和的遗传图谱并与表型的标记进行了整合,以创造新的遗传资源。
【行动经过】
“国际水稻基因组”测序计划由1997年在新加坡举行的植物分子生物学会议发起。9月,“水稻基因组测序国际联盟”在新加坡举行的植物分子学大会期间成立。
1998年2月,中、日、美、英、韩五国代表草拟了资源共享等组织议程,制定了“国际水稻基因组”测序计划。
国际“水稻基因组”测序计划正式启动,中国以及台湾地区与日本、美国、法国、韩国、印度等一道,成为这一国际组织的成员。每个国家根据自身的经济实力,除日本承担6条染色体的测序外,其它国家与地区大都只承担一条染色体的测序。童年年,春岛等构建了一张高密度水稻遗传连锁图,包含了2275个遗传标记,覆盖“水稻基因组”1521.6cM。
根据国际水稻基因组织的协议,其成员必须将测序的所得数据提供给公共基因库,同时,也可以分享他人的数据,和有关这一领域的先进技术与成果。这就意味着,中国水稻基因的测序研究,奉献了10%的工作量,却拥有了分享另外90%成果的资格。基因中心已向公共数据库递交了超过5000万碱基的水稻基因组DNA序列数据。
日本在水稻基因研究领域处于领先地位,而中国的第4号染色体与日本的第1号染色体工作同时刊出论文,这本身就是国际合作的结果。
在测序过程中,需要大量的探针,中国暂不具备成熟的产品。而日本从1992年就开始研究,探针的技术与产品已相当完备和成熟。根据协议,国家基因研究中心因此获得了最好的探针,提高了测序的准确性。
2000年在美国的C1emson召开了协调会,对12条染色体测序任务进行了分工。
测序工作分为测序、填补缺口和最后完成3个阶段:
对于最后测序结果的标准,IRGSP规定为误差率低于1/10000(精度99.99%);
第二阶段是测序工作的瓶颈,测序阶段留下的缺口需要补平,水稻特殊序列组成(易于形成二级结构和GC富集区)和重复序列造成的低质量测序结果需要改进;
通过各研究机构和私营公司的共同努力,IRGSP已于2002年12月宣布,利用克隆连克隆(逐步克隆)测定法,提前3年完成了水稻12条染色体的碱基测序工作。
日本在其中发挥着主导作用,并最先以99.99%的精度完成了最长的第1条染色体的测序工作。此前,孟山都公司同意将已构建的“水稻基因组”序列草图(包括已构建物理图的3416个BAC和125619个STC序列)转让给IRGSP。RGP对原有的物理图进行延伸及弥补物理图上的空缺,大大加速了“水稻基因组”测序工作进程。
2001年,“水稻基因组”计划公布了包含3267个RFLP分子标记的水稻分子连锁图。还利用次级三体和终级三体将经典遗传图和分子遗传图中的着丝粒位置确定,修正了分子图谱的方向,把RFLP标记定位到特定的染色体臂上;Wu等构建了水稻第11和第12染色体短臂末端重复基因组区域的图谱,重复基因组区域大小是2.5Mb,表明水稻也存在大染色体片段的重复区域。
另外,中国科学院基因组信息中心暨北京华大基因研究中心等12家单位,于1998年至2001年利用全基因组霰弹法,构建了籼稻93-11基因组工作框架图和低覆盖率的培矮64S草图,并最先向全世界公布了水稻93-11全基因组框架图。
随后,美国先正达公司也完成了日本晴基因组工作框架图的测序。两个框架图同时发表在2002年4月的《科学》第296期第79-99页,它们都是对IRGSP的补充。
2002年12月12日,中国科学院、国家科技部、国家发展计划委员会和国家自然基金会联合举行新闻发布会,宣布中国水稻(籼稻)基因组“精细图”已经完成。第1、4染色体的序列和结构已同时发表在2002年11月《自然》第420期第312-320页。
由美国克莱姆森大学负责的第10染色体的全长序列也已发表在2003年9月的《科学》上。其余各条染色体的测序结果也将陆续发表。
2002年12月18日,国际“水稻基因组”测序工程结束纪念仪式在东京举行,200多位来自10个国家和地区的科学家和日本各界代表出席了会议。
仪式宣布,国际“水稻基因组”测序结束。
【后续】
水稻基因组测序的完成及2002年9月我国水稻功能基因组计划的启动,这一切都具有划时代的意义。然而,这还只是初步完成了整个基因组学的第一步——结构基因组学,水稻全基因组的完成图和第二步的功能基因组学的路更长,且更具现实意义。
1、水稻全基因组的完成图:
水稻基因组框架图和全长序列的精确测定虽已基本完成,但片段之间或重叠群之间仍存在一些缺口或空隙,如籼、粳两个亚种的基因组工作框架图分别覆盖了水稻全基因组的95.29%和93%,碱基准确率约99%;第1染色体和第4染色体的全长序列之间也分别还有8个和7个缺口。
由于无数重复序列,第1染色体390个PAC/BAC克隆中有4个克隆仍缺乏一致性,还属于测序的第1阶段;16个克隆属于第2阶段,370个克隆属于第3阶段。框架图仍需增加更大片段读序,构建更大跨度的重叠群(支架),填充这些顺序间隙和物理间隙,结合现有的物理图,改善框架图。
全长序列还可用荧光标记终止法、引物步查法和少核苷酸的PCR反应等方法填补缺口或纠正组装错误。最终,为世界上所有从事水稻以及其他禾谷类作物研究的生物学家和遗传学家提供一个高度准确并进行精细注释的水稻基因组完成图。
2、功能基因组研究:
大量微生物和模式生物的基因组全序列测序完成,如线虫、酿酒酵母、拟南芥、果蝇和水稻等。完成基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清:
基因组顺序中所包含的全部遗传信息是什么;
基因组作为一个整体如何行使其功能。
也即“后基因组”计划,又称为功能基因组学。水稻的基因总数有可能在5万-6万个左右,至今已报道的功能基因只有20%。随着被克隆基因的日益增多,对基因功能的研究显得日益迫切。一系列研究基因功能的方法涌现,如基因转导技术、基因敲除技术、基因嵌入技术及突变体库筛选和全基因组表达分析。可以不同规模地鉴定出各类参与细胞新陈代谢、转录、信号转导、运输和植物防御等功能基因。数以十万计的基因及其编码的蛋白质可供基因工程和蛋白质工程的操作,从而大大扩展生物技术的产业范围。
3、蛋白质组研究:
蛋白质的结构是其功能的基础,翻译后修饰是蛋白质调节功能的重要方式,蛋白质与DNA或蛋白质的相互作用及其调节是细胞中信号传导及所有代谢活动的基础。蛋白质组学的主要技术包括二维聚丙烯酰胺凝胶电泳、质谱分析、蛋白芯片、酵母双杂交系统和噬菌体展示技术。
已有一系列有关水稻不同组织和器官中蛋白质组研究的报道,从根、茎、叶片、种子芽、糠和愈伤组织中分离蛋白质,经二维聚丙烯酰胺凝胶电泳,总共分辨出4892个蛋白斑点,其中约3%的氨基端序列已被测定;从根的蛋白中检测到292个斑点,其中76种蛋白的氨基端及内部序列已经测定,根据氨基酸系列,在水稻cDNA文库中经同源性搜索找到编码42种蛋白的cDNA克隆,如果文库足够大,那么编码蛋白的所有cDNA均应较容易地通过计算机搜索鉴定出来。
中国首个国家基因库
4、禾谷类作物比较基因组学研究:
禾谷类之间的广泛共线性,加之相应的遗传图和物理图,可以将某作物的共线性区域的标记作为相关作物进行精细定位和鉴定候选基因。水稻的小基因组为其他禾谷类基因组研究提供了基础,包括鉴定高效直系基因、调控区域、基因功能和便利其他禾谷类基因组的测序,往往作为模式作物。高夫等报道几乎每个禾谷类蛋白质与水稻都有一个相关基因,80%-90%禾谷类基因与水稻有同源性。禾谷类作物中大部分基因是保守的,它们的表型差异是由于少数不同基因或相似基因的功能差异引起的。
通过基因组列线比较,有利于鉴定其他禾谷类定位的性状与水稻相关的基因。约2000个禾谷类QTL被定位和列线在基因组图谱上。例如,许多玉米QTL与水稻第1染色体的顶端相关。玉米染色体1、2和7与这些区域同一列线。如在玉米的第1染色体上影响产量的一个QTL,与水稻第3染色体具有共线区域,该区域含220个预测基因和120多个水稻SSRs。
利用这些基因,通过同源性鉴定了玉米的约100个未定位的cDNA,因此,它们是影响产量的候选基因。水稻基因组中鉴别到生物合成酶、信号转导蛋白质、发育调控子和特殊转运子,已列线到水稻物理图和遗传图,也被锚到异源的禾谷类图谱上。绘制整个禾谷类列线图能够获得大部分已定位的禾谷类QTL和取舍相关性状的候选基因。水稻基因组的成功测序为禾谷类作物基因组研究提供了一个基础。
5、生物信息学:
生物信息学的主要研究内容是生物数据库及生物信息分析,随着各种模式生物基因组计划的实施,生物数据库数量持续增长,数据库结构更复杂,大量新的分析方法被提出和改进,大量重要基因被发现;大量来自基因组水平上的分析比较结果被公布,这些结果正在日益改变人类已有的一些观念。各种数据库中具有生物联系的内容能连接到一起,实现生物信息资源共享。DNA数据库是公共生物数据库中最大的一类数据库,包含大量已知功能和未知功能的DNA系列。
中国“水稻功能基因组”项目也构建了一个综合的水稻基因信息数据库,包含了国内外相关的水稻插入突变体、TAC末端序列和ESTs序列,可为进一步研究新基因的功能提供更多有价值的信息。生物信息学已广泛用于基因组和蛋白质组的研究,但是,随着大多数基因和蛋白质功能的阐明,将会出现一个新的发展前景,这就是在计算机上模拟细胞内部和机体内部的生化代谢过程,甚至模拟进化的历程,这将使生物学真正进入理论生物学的新时期。
6、基因组研究成果在水稻改良上的应用研究:
传统水稻育种的成功主要依赖于一系列优异基因(如矮秆基因、抗病和细胞质雄性不育基因)的发掘和利用,功能基因组发现的新基因也将大大促进水稻新品种的选育。通过水稻基因组序列比较分析和多态性鉴定,发现了品种之间的序列差异,而这些差异与表型差异一致。重要的是,利用这些差异将为分子标记辅助育种提供一个前所未有的机会。
5万-6万个左右水稻基因的功能注释完成以后,对植物界有普遍意义。已利用遗传工程将单个或多个目的基因导入水稻栽培品种,改良作物某些性状。科学家们可以利用“分子设计育种”,只要在屏幕上触摸任何发育阶段的水稻细胞就能看到所有表达的蛋白质以及它们之间的相互作用,在电脑上制定出“保护水稻整个生命周期一切活动所需的最佳基因”研究方案。
《科学》杂志说,中国科学家采用“全基因组散弹枪测序法”,测出了籼稻亚种的基因组序列,该品种是中国和亚太地区其他国家的一个主要品种。
据专家介绍,中国“水稻工作框架序列图”与人类、拟南芥等已经测定的基因组序列相比,主要有8大发现:
1、估计水稻基因组中基因总数在46022至55615之间,其基因总数几乎是人类基因组基因总数的两倍;
2、水稻基因主要通过基因加倍而使“基因家族”的成员数目增加,但每一“成员”的功能比较单一;
3、基因头尾差别大,大部分水稻基因的头部与尾部组成不一样,增加了基因发现的难度;
4、水稻、拟南芥与人类基因组都有很多不编码蛋白质的“垃圾”序列。水稻的这些“垃圾”序列多位于基因之外,而人类的却在基因之内。正因为如此,水稻基因的平均长度只有4500个碱基,而人类基因的平均长度为72000个碱基;
5、拟南芥已发现有2.5万个基因,80%左右的基因在水稻的基因组中都可找到。而水稻基因组中只有一半不到的基因在拟南芥基因组中找到;
6、籼稻与粳稻的基因组有1/6不一样;
7、水稻序列的相互之间差异近1%,而人类序列的相互差异为1‰左右;
8、籼稻与杂交水稻母本的序列给杂交水稻的机制提供了新的启示:“杂交优势”很可能与基因组大小、基因表达等都有关系。
任何一个生物的全基因组序列都蕴藏着这一生物的起源、进化、发育、生理等重要信息。
【关联性】
“水稻基因组”计划是国际合作的科学研究行动计划。此类行动计划很多,尤其是涉及到生物基因层面的,还有很多,包括国际合作、各国分别进行的,包括人类、黑猩猩、仓鼠、蚊子、玉米和西红柿等等。
“水稻基因组”计划自身也有进一步的研究计划,基本都是立足自己国家水稻品种及希望涉足的物种。在此不详细列举,但“历史脉动”将在未来逐步发出,敬请及时关注本头条号。
【影响】
水稻是全球半数以上人口赖以生存的粮食作物,对于人类生活、粮食安全具有至关重要的意义。研究表明,水稻共有12条染色体,它们记录着与水稻的高产优质、美味香色以及与生长期、抗病抗虫、耐旱耐涝、抗倒伏等所有性状相关的遗传信息。因此,解析“水稻基因组”序列,是改进水稻品质、提高水稻产量的前提和基础。
“国际水稻基因组”计划破译了水稻遗传的“密码本”,科学家可以根据测序得到的精确序列,对水稻中影响产量、口感、香味、抗病虫害等重要农业性状的基因进行鉴定,并采取措施提高水稻的产量和质量。这些将给水稻育种带来革命性的影响。
“国际水稻基因组”计划的完成,在农业生产上的意义可以与“人类基因组”计划对人类健康的意义相媲美。获得水稻基因4号染色体的序列分析结果,将有助于了解小麦、玉米等其它禾本科农作物的基因组,为培育具有高产、优质、抗病虫害、抗逆等优良性状的水稻新品种打下良好基础。
基因研究对水稻研究的影响是多方面的。比如以前人们水稻选种只能依靠目测,而通过基因研究,人们可以利用遗传途径改良水稻品种,水稻的选种时间也可以大大缩短。
水稻基因数目再次表明,生命的复杂性远远超乎人类的任何预先设计和想象,而任何一次科学进步,都将使人类更加接近真理,接近事物的真相。正如人类基因数曾经出现过的波折那样:最开始人们认为大概有3万到10万个,直到2000年“人类基因组”工作框架图被绘制并“解读”后,人们才发现人类的基因只有3万到4万个,远远低于最开始的推测。
【评论】
“水稻基因组”计划研究包括水稻基因组测序和水稻基因组信息,是继“人类基因组”计划后的又一重大国际合作的基因组研究项目,也是迄今测定的最大植物基因组。成功测序是继完成人类基因组测序后的又一巨大成功。该框架图已基本覆盖了水稻的整个基因组、92%以上的水稻基因,人类第一次对水稻有了全基因组层次的了解。
它必将成为禾谷类作物基因组研究的里程碑。
【相关资料】
基因组包含了生物的进化、遗传和生命的奥秘,是细胞遗传物质的总和,其大小通常以其全部DNA碱基对总数来表示。
水稻基因组有12条染色体,第1染色体最长,第10染色体最短;核基因组序列总长约430Mb,是拟南芥基因组的3.7倍或人类基因组的1/6.7,预测基因总数达32000-56000个,可能多于人类基因总数。
籼稻是亚洲和世界其他一些地方广为种植的主要水稻亚种,同时也是中国杂交水稻的主要遗传背景之一,为解决中国人民的粮食问题作出了巨大贡献。
籼稻93-11基因组框架图,共完成462万个成功反应,得到了127550个重叠群,覆盖深度为4.2×,预测基因组长466Mb,实测的全长非冗余序列为409.76Mb,大约覆盖了水稻全基因组的95.29%,碱基准确率大于99%;
估计基因的大小为4500bp,预测基因数为4.6-5.6万个,拷贝基因占基因总数的74%,转位因子占全基因组的24.9%,简单重复序列数为全基因组的2.1%;
基因内GC含量的梯度明显;
外显子变异少、内含子变化大;
水稻与玉米、小麦和大麦之间有广泛的共线性,但水稻与拟南芥的共线性是有限的。
这些序列还贮存在日本、欧洲和美国的DNA公共数据库中,项目记录的代码为AAAA00000000,版本号AAAA01000000。
粳稻是适宜于温带地区种植的另一类栽培稻亚种,籼稻和粳稻两个亚种大约于200-300万年前在进化中产生分离,两者不同的基因组比例达22%以上。
日本晴基因组框架图,共完成550万个成功反应,得到了42109个重叠群,覆盖深度大于6×;
覆盖率为93%;
非冗余序列为389809244bp,碱基准确率大于99.99%,GC含量达44%;
预测基因数为3.2-5.0万个,拷贝基因占基因总数的77%;
转位因子4220个,简单重复序列数为46666个;
参照拟南芥的功能分类法,从抗病性、花时和花发育特性、新陈代谢、磷的转运子和转录因子等方面进行了基因功能分类。
这套粳稻基因组框架图被简称为Syd。第1染色体的预测长度达51.4Mb,约占水稻图1水稻基因功能分类碱基总数的1/10。其中短臂序列长493729bp,约6756个基因,约30%基因(2073个基因)已被功能分类。基因大小的均值是6.4kb。第1染色体是富G+C含量的染色体,特别是在编码区,具有几个分散或串联重复序列基因簇分布的特征。第4染色体的预测长度达36.8Mb。已经以99.99%的精度完成了大约34.6Mb的测序工作。着丝点是序列的植物中最长的,达1.16Mb。
共预测到4658个基因和70个tRNA编码基因,其中,1681个基因与EST相匹配。35%的基因功能已被分类。GC含量达44.16%。转座子明显偏向常染色质域。水稻第4染色体序列与拟南芥基因组几乎没有共线性等特征。第10染色体的预测长度达23.7Mb。已经以99.99%的精度完成了大约22422563bp的测序工作,短臂和长臂分别为7.6Mb和14.8Mb。共预测到3471个基因和67个tRNA编码基因,其中,8.3%基因与EST相匹配。51.4%基因的功能已被分类。GC含量达43.5%。这些序列贮存在美国的DNA公共数据库中,记录代码为AE016959。
【代号说明】
作为和平时期的科技合作项目,项目代号当然是越简明、越通俗越好。因此,“水稻基因组”作为已经简化到极致的名字,实至名归。
如果感到本文有些意思,请劳动您宝贵的小手指,或关注、或评论、互收藏、或转发,这将成为坚定“历史脉动”为您地提供各类行动计划不竭的强大动力。谢谢!
评论