基因组到底是什么

有多少读者听说过“基因组”这个词呢?

我想,应该比听说过“基因”的人要少一些吧。基因组指的是生物体所有遗传物质的总和,大家把它理解成一整套的基因就可以了。

基因组(genome)这个词,是基因(gene)加上希腊语中表示“全部、完整”(-ome)的词缀组成的合成词。我以为,“研究对象+ome”合成的词语,在自然科学的学科当中,也只有生物学有此创想。

这可以说是一种“网罗主义”的思维方式。与之相对的,我想应该就是物理学的“原教旨主义”。简而言之,在研究同一种自然现象时,物理学等学科崇尚普遍的理论或者原理,并追求建立模型。

生物学当然也会追求普遍的规律。但对规律的追求都是暂时的,往往会追加许多例外情况,从整体、全面的角度去考虑。换言之,物理学是从种种现象中排除多余的事物,摸索出普遍的原理。而生物学则是在普遍的原理的基础上,发现多种多样的现象,在研究过程中不断将规律的范围扩大。

最近,人们对所有转录产物(transcript)的集合—转录组(DNA转录得到的所有RNA)、所有蛋白质(protein)的集合蛋白质组(翻译出的所有蛋白质)越来越关注。而这些研究的源头,都来自试图研究所有遗传物质的基因组研究法。

因此,人们开始对各种生物开展名为“基因组计划”(Genome Project)的研究尝试。但准确地说,基因组计划其实是分析所有作为基因本体的染色体DNA的核酸序列,而并非分析所有的基因,也就是真正意义上的基因组。基因组计划归根结底只是在为分析基因组分析做准备(一种极其重要的准备)。

在这一驱使下开启的基因组计划之一,正是“人类基因组计划”。人类基因组计划,是于1990年在美国的主导下启动的。初始的预算是30亿美元,计划开展15年。但随着过程中计划推进速度加快,大致的序列分析(被称作“测序草图”)在2000年就完成了。

而在2003年,也就是沃森和克里克发现DNA双螺旋结构50周年之际,测序工作全部完成。

表观遗传突变

“人类基因组计划”的目标就像刚才提到过的那样,是列举出人类所有染色体DNA的核酸序列,而最终目的则是分析基因组。

在计划开展过程中,随着DNA分析技术和数据分析用的相关电脑技术的发展,计划也产生了为医学和生物学发展做贡献的新目的。

当然,这并不是一个研究室,甚至美国一个国家能够完成的大工程。所以,世界各国携手共同研究一个人类的基因组(22对常染色体[1]和2条性染色体),长年累月、一点一滴地分析核酸序列。

过去,DNA的核酸序列都是由人手工计算、分析,如今这项工作已经实现了自动化,使用DNA测序器来完成。人类基因组计划的工作量用现在主流的DNA测序器计算、分析的话只需要10天左右,而新一代的测序器只需要几天时间。据说,如果目前正在开发中的最新型测序器一旦完成,分析基因组只需要短短3天时间。最新型测序器能够进行更加精细的解析,甚至能够分析表观遗传突变。

人类基因组计划最初的形式是研究人员们分工分析人类的31亿个碱基对,建立数据库,与全世界研究者们实现信息共享,并对各个基因不断开展分析。

这项计划原定持续15年,但随着之后技术的发展,测序草图在2000年就公开了,这比计划时间早了5年。测序草图指的是不完整的序列,测序草图的英语“draft”有“草案”的意思。

如今也是一样,在进行类似基因组分析的长核酸序列的分析时,会将核酸序列分割成多个片段,完成分析后再重新组合。因此,测序草图对序列的细节研究,例如切割点附近,是很不充分的。英语中“draft”还有“穿堂风”的意思。这个命名实在是非常巧妙。

在测序草图发布后,经过三年的修订补缺,终于公布了完整的序列。这个速度依旧比最初的计划早了两年。计划的完成时间提前了这么多是有其原因的。

塞雷拉基因组公司的挑战

有一家私营企业,就像是与“人类基因组计划”项目竞赛似的,也开始了人类基因组分析工作。那就是由美国人约翰·克雷格·温特担任首任总裁的塞雷拉基因组公司。温特也因为人工合成了细菌的所有染色体而闻名。

过去,世界各国的研究人员都按照计划来研究自己所负责的染色体的基因。但塞雷拉基因组公司却完全集中于DNA的分析。他们采用了鸟枪测序法[2],以惊人的速度开展分析。鸟枪测序法就是将染色体DNA切成非常小的片段,不考虑基因等条件,把序列数据化的一种方法。

他们依靠序列重叠的区域,将众多DNA片段重新拼接成染色体,就像是拼散落在地板上的拼图一般。但他们并不知道拼好后的图样是什么,只能依靠4种核酸。这当然不是人力能够办到的事情,他们当时使用超级电脑运转了好几个月。

塞雷拉基因组公司开始基因组分析的目的,是为了获得基因专利。因为他们意识到,在基因组计划中发现的新基因能够发家致富。这一企图也遭到了科学家团体的批判,“是一种妨碍研究推进的尝试”,最终他们不得不改变方针。在另一起诉讼中,法院也判决生物的基因不属于专利范畴,以研究为目的使用基因,基本上都可以开放获取。在将来,人工的基因也许可以成为专利申请的对象。

对人类基因组的分析,得出了研究者从未设想过的结果。没想到,根据推断,人类基因组中有七成以上的内容是和生命活动毫无关联的。而在剩余仅仅三成的基因当中,与蛋白质的结构相关的核酸序列占基因组整体的比例也不过只有不到2%。

而在实质上与蛋白质的氨基酸序列直接相关的核酸序列,也只不过占这不到2%中的一成。各位读者应该也很惊讶:“绝大多数都是无用的区域吗?”

其实,在人类基因组计划完成,公布人类的基因数只有2.1万个这一结果的时候,全世界的科学家们也都惊“掉”了下巴。这比人们所想象的要少得多。

不过,有几点需要大家注意的地方。

基因的数量归根结底不过是推测,并不意味着我们已经确定了它们的功能。像前文提到的那样,基因组计划发现的不过是核酸序列而已。然后从经验上,机械地检测在基因中出现次数较多的、标志性的核酸序列基因,并由此推算基因的数量。

但是说到底,推测也只是推测而已。在2003年人类基因组计划结束之后,又启动了一个名为Encyclopedia of DNA Elements(DNA元件百科全书计划)的人类基因组分析国际合作计划,通称ENCODE。

ENCODE正如它的名字“DNA百科全书”所说的那样,项目的目标就是试图打造人类基因组的百科全书。分析人类基因组计划从染色体中提取出的文字罗列(核酸序列)中究竟写了些什么,正是这项计划的目的。这的确称得上是将DNA这种自然中的编码(密码)“encode”(译为编码)为便于利用的数字化数据的项目。

人类基因组计划出人意料的结果

人类基因组计划如今仍在持续中,而参与了计划的日本的理化学研究所[3]在2012年公布的研究结果再一次震惊了世人。理化学研究所的研究团队分析了转录组(从DNA转录得到的所有RNA),发现人类基因组中居然有八成的基因可能具有某种功能。

这和人类基因组计划得出的预测结果完全相反,这意味着细胞中除了蛋白质之外,RNA也可能发挥了各种各样的作用。更加准确地说,在细胞分化的每个阶段发挥作用的染色体只占三成,但根据细胞种类的不同,染色体上发挥作用的部位也不同,总体上可能有约八成的核酸序列被激活为基因(或是调控区域)。

然而也有批判声音指出,认定这些转录后的RNA全都具有某种功能还是有些操之过急。

牛津大学的研究团队在2014年发表的一篇论文从进化论的角度比较了多种哺乳动物,推断出了实际发挥作用的(生命活动所必需的)核酸序列。这一研究显示,人类基因组中确定蛋白质构造的核酸序列只不过占总量的1%多一点,而控制蛋白质表达的核酸序列只有7%左右。简单来说,人类基因组中重要的部分只占8%多一些。

与其说哪种研究结论才是正确的,不如说当前的任何一种研究结果都不过是一种暂时的推测。实际上,我们更应该一个一个地去对基因加以确认。

话虽如此,截至2015年8月,数据库中收录的基因已经达到了5万余个(每年仍在增加),这一数字已经远远超过了2003年的推算数值。如同前文所述,如果不只是把蛋白质的核酸序列看作基因,而把控制蛋白质表达的RNA的核酸序列也纳入研究范畴的话,我们就会一点一点地发现原本以为无用的基因区域,实际上都具有某种功能。但大多数是无用的(或者说大部分是间隙)这一点,恐怕并不会有所改变。

不过,虽说无用,却并不意味着这些基因是没有意义的。从长远的角度来看,有时一些突变也许会带来对进化有利的结果。

在ENCODE中大显身手的理化学研究所研究团队同时也主导了2000年发起的另一个国际项目——国际FANTOM联盟,共有来自18个国家的超过100家机构参加。

FANTOM是Functional Annotation of the Mammalian Genome的缩写,是一个全面提取哺乳动物(尤其是小鼠)基因功能的项目。需要特别指出的一点是,国际FANTOM联盟的数据库中也包括了基因表达各个阶段内的细胞的表达,发明iPS细胞的灵感就是由此产生的。

世界各国的基因组分析

人类基因组计划对于解读人类的核酸序列是有着重要意义的。而下一阶段,我们则需要关注每个人之间的不同。做到这一点的项目,就是1000 Genomes Project(千人基因工程,2012年完成),这一项目分析了超过1000人的基因组并将其数据库化。

非洲的样本有来自尼日利亚的伊巴丹市的约鲁巴人(非洲西部规模最大的民族之一)、来自肯尼亚的韦布耶市的卢希亚族(肯尼亚第二大民族,从非洲西部迁徙至东部)和马赛人(分布在肯尼亚南部到坦桑尼亚北部一带的本地居民)。

亚洲的样本有来自东京的日本人和来自北京的中国人。欧洲的样本有托斯卡纳大区的意大利人。美国的样本有南欧、北欧人后裔的犹他州美国人、休斯敦的古吉拉特系印度裔、丹佛的华人、洛杉矶的墨西哥裔美国人、西南地区的非裔美国人。这些人的基因组全都被数据库化了。(最终共有来自26个民族的2504人参加了项目。)

1000 Genomes Project比较了众多人种,精细地区分了基因组中的共通之处和个性化的部分,并加以分析。项目期望自身的研究成果能够应用在各个领域的研究中,从形态表达到基因与疾病的关系、医药品研发等。

1000 Genomes Project的研究成果发表在了2015年9月的《自然》杂志上,研究证实人类基因组31亿个碱基对中有高达2.93%的突变。人类的基因组突变比人们预想的更多,不同民族之间也存在着不同的和共通的突变,而在同一民族中,个体间的突变差异也很大。

不过,2000个左右的样本规模作为数据库来说还是太小了(虽然学术意义很大)。而更大规模基因组计划也将最主要的研究目的转向了个性化医疗和预防医疗。

世界各国也在开展以本国国民为对象的、更加大规模的基因组计划。例如英国就在2012年开始了名为“Genomics England”(英国基因组学公司)的项目,规模达到50万人。美国也从2013年开始以100万名退伍军人为对象,开展了名为“Million Veteran Program”(百万老兵计划)的项目。英国的项目主要以病患为对象,主要目的是将研究成果应用于掌握病体情况、疾病治疗等病理学研究。美国的基因组计划的重点在于退伍军人。美国退伍军人事务部有着规模庞大的退伍军人的就医记录及健康管理信息,将基因组计划与这些数据对照起来,就能够形成细致入微的数据库。

在日本,也有东北医药超级库组织和日本生物样本库(BioBank Japan)等规模从几万到15万人不等的基因组计划。

我认为,各国分头建立起这样的数据库是很有效的。这是因为人种和民族之间,在核酸序列上存在着上文提及的差异。药物的效用也可能与这些差异息息相关。

数据库规模越大,就能够分析越微小的差异。但是如今的分析工作早已超越了人力所能及的规模。因此,生物信息学几乎在“人类基因组计划”出现的同时发展了起来。

生物信息学的发展也推动了计算机科学和信息工程的进步,今后,我们将有可能通过4个字母组成的数字化的核酸序列当中读取出有意义的信息。

基因组分析的成果之一,就是对医疗领域的贡献,想来各位读者对此也颇为期待。基因组分析对医疗的贡献主要分为检查和治疗两大类,我将分别在其他小节内进行说明。

被误会的线粒体夏娃

在本节的最后,我想向大家介绍一下基因组分析所取得的另一大成果——对考古学、人类学的贡献。

各位读者朋友听说过“线粒体夏娃”这个词吗?

这是距离现代人类最近的共同祖先,是一位非洲女性。据推算,她生活在距今12万年至20万年前。人们常常误以为当时非洲只有她一位女性,但事实并非如此。线粒体在受精时几乎不会从**进入卵子,所以基本上只有来自母亲一脉的线粒体能够遗传给子孙。

因此,只生下男性的女性一脉的线粒体就会断绝。而如果把能够留下自己的线粒体算作一件幸事的话,那么线粒体夏娃只不过是一位非常幸运的女性而已,除此以外并没有什么特别的含义。

线粒体是生产细胞内化学反应所需的高能化合物(腺苷三磷酸、ATP)的细胞器,类似于发电站。与细胞核内的染色体不同,线粒体拥有自己的染色体。

如上文所述,来自母亲的线粒体能够传给子孙后代,所以我们可以通过比较线粒体染色体的突变,来推断地区内母系祖先的迁移历史。我们可以将之理解为一种家族研究。群体内共通的基因模式叫作单倍型,拥有相似单倍型的群体叫作“单倍群”。

更加准确地说,单倍型的基因模式是由单核苷酸多态性决定的。例如说,假设竹内家的亲戚们都拥有共通的SNPs,那就可以称作是竹内家单倍群。不过实际上,这么小的规模并不能被称为单倍群,日本人,或者是世界各地区中的更大规模内的拥有相似单倍型的群体,才能被称为单倍群。

◆Y染色体的单倍群O的分布

Y染色的单倍群大致可以分为A到R。O在东亚最多,其中日本人被分类为O2b。

与线粒体一样,通过比较Y染色体的单倍群,就能够将研究集中于父系祖先身上。有趣的是,Y染色体单倍群与语言学上的“语系(拥有相同祖语的语言)”的分布大体一致。这可能是因为大多数语言都是采用父系命名的。

通过分析全世界的单倍群,能够追溯人类从上古至今在地球上的迁徙痕迹,并为已有的种种假说做印证。

[1] 此处原文讹误为“22条常染色体”,实应为“22对常染色体”。

[2] 也称“霰弹枪定序法”。

[3] 日本政府建立的唯一的综合性大型研究所,地位相当于中国科学院。