第二章 DNA——生命密码(1 / 1)

DNA的双螺旋结构代表了一个时代的科学,更神奇的是所有生命都使用相同的DNA编码,似乎表明在地球上,生命只诞生了一次。对于DNA结构的发现者克里克来说,这暗示了外星生物的一次播种,我们有更好的答案吗?

在剑桥的老鹰酒吧外墙上有一块蓝色的牌子,是2003年挂上去的,用以纪念50年前发生在酒吧里的一段不寻常的谈话。1953年2月28日,两位酒吧常客詹姆斯·沃森和弗朗西斯·克里克,在午餐时间冲进吧里,宣布他们发现了生命的奥秘。虽然严肃紧张的美国人加上一位滔滔不绝的英国人,再时不时配上他们恼人的笑声,看起来活似一对喜剧演员,但是这一次他们可是认真的,而且他们是对的,或者应该说对了一半。如果说生命真的有什么奥秘的话,那一定是DNA。不过尽管沃森与克里克再聪明,当时也只知道一半答案。

其实在当天早上沃森与克里克已经知道DNA是双螺旋结构。他们的灵感来自他们的天赋,混合了模型结构、化学推论,以及一些“偷来”的X射线衍射照片。面对他们当时的结论,沃森说:“太美了,这必须是对的。”整个午餐时间里,他们越讨论就越有信心。他们的研究结果发表在4月25日的《自然》上,是一篇只占一页篇幅的简短论文,有点像登在地方小报上的出生公告。论文谦逊的语气极不寻常(沃森有句对克里克的评价广为人知,说他从未见过克里克谦虚的样子,然而沃森本人也没好到哪儿去),并在结尾十分委婉地写道:我们也注意到了,我们假设的这种特定配对方式,暗示了这种遗传物质可能的复制机制。

DNA是基因的物质基础,当然也就是遗传物质。它帮地球上所有的生物编码,从人类到变形虫,从蘑菇到细菌,只有少数病毒例外。它的双螺旋结构已经成为科学的标志,两条螺旋链彼此缠绕,一圈又一圈直到天荒地老。沃森与克里克展示了两条螺旋链分子层级的配对方式。如果把这两条螺旋链分开,其中任何一条都可以作为模板,去合成另外一条,于是原来的一条双螺旋链就变成了两条双螺旋。微生物每次增殖时如要把自己的DNA传给下一代,那它只须解开自己的双螺旋链,做出两条一模一样的双螺旋链即可。

虽然复制DNA的具体分子机制十分让人头痛,但在原理上却非常完美、惊艳而且简单。遗传密码就是一系列的字母(术语叫作碱基)。DNA总共只有四个字母,分别是A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)以及C(胞嘧啶),不过你不必管这些化学名称。真正的重点是,A只能和T配对,而G只能和C配对(见图2.1)。这种配对方式是由分子形状以及成键结构决定的。如果把一条双螺旋解开,让这些碱基露在外面。这时每一个露出的A只可以配T,而每一个露出的G只可以配C,依此类推。碱基对不只是彼此互补,它们是真的想要彼此结合。对于T来说,只有和A配对的时候,它的化学生命才有意义。如果你把这两个分子放在一起,它们的化学键会唱出完美的和弦。这就是化学,如假包换的“基本吸引力”。因此DNA不只是被动复制的模板,每一条螺旋会主动放出磁力,吸引可以与自己配对的另一半。所以把一条双螺旋拉开,它们会很快重新结合,单螺旋链会急切地寻找可以与自己配对的另一半。

一条DNA长链看起来无穷无尽。以人的基因组为例,里面有将近30亿个字母,术语称为3千兆碱基(记作3Gb,1兆=106)。等于说单个细胞核里就含有30亿个字母,打印出来的话,一个人的基因组可以填满200册书,每一册都和电话簿一样厚。不过人类的基因组绝对不是世上最大的,你或许会很惊讶,世界纪录保持者是一只小小的变形虫——无恒变形虫,它巨大的基因组包含了670千兆碱基,大约是人类基因组的220倍。但是这些基因组里面似乎大部分都是“垃圾”,并不负责制造任何东西。

图2.1 DNA的碱基配对。这些不同字母的几何图案代表的意义是:A只能和T配对,而G只能和C配对。

每次细胞分裂的时候,它就会复制所有的DNA,整个过程耗费好几个小时。人体是由15万亿细胞组成的怪物,每个细胞都带有相同的DNA模板(其实应该说有两套)。从一个受精卵发育成人,这套双螺旋长链要被解开,当作模板至少复制15万亿次(真正的次数当然远多于此,因为还要加上细胞死亡、替换等因素)。细胞复制的精确度堪称奇迹,它要把这些DNA长链从头按顺序写起,每写10亿个字母才出一次错。用人类抄书来做比较的话,那就等于要把整本《圣经》抄280次才错一个字母。而人类抄写的精确度远低于此。现在已知被保存下来的手抄本《新约全书》约2.4万本,没有任何一本是完全相同的。

然而在每条DNA里,还是会夹杂一些错误,这是因为基因组实在是太大了。一个字母被抄写错误的情况,叫作点突变。每次人类细胞分裂时,整套染色体里面大概会有3个点突变。细胞分裂的次数越多,错误累积越多,最终就可能引发癌症这类疾病。突变也可能传给下一代。对女性来说,如果一个受精卵将发育成女性,那之后大约要经过至少30次细胞分裂才会形成一个新的卵细胞,每次分裂都会累积一些错误。男性更糟,因为细胞至少要经过100次分裂才可以产生**,而每次分裂大自然都会无情地加入一些突变。由于男性终生都可以制造**,所以随着男性年龄的增加,**经过一轮又一轮的细胞分裂,情况只会越来越糟。正如遗传学家詹姆斯·克罗所说:老男人的**是威胁整个族群健康的最大突变灾难。不过就算是一般年轻夫妻所生的小孩,也比他们父母多大约200处突变,但其中只有少数可以造成直接损害。[1]

尽管细胞复制DNA的准确度极高,还是会发生改变。每一代的基因都和上一代不同,不仅仅因为我们的基因混合了父母双方的,而且我们都携带了新的突变。大部分的突变都是前面提到的点突变,只有几个字母被替换掉了。不过少数突变十分剧烈,有时候染色体复制好了另一份却没有分开;有时候整段DNA序列缺失不见;有时候病毒感染会插入许多新的片段;有时候部分染色体会整段颠倒,里面的DNA序列也颠倒了。各式各样的突变都可能发生,不过最严重的突变往往会让个体无法生存。如果能看到染色体的话,会发现它们像**的蛇窝一般,带着条纹的染色体不断结合再分开,无休无止。自然选择会把绝大多数的突变怪物都剔除掉,因此起着稳固的作用。也就是说,DNA长链会扭曲变形,而自然选择则将它们重新整理归位,把所有好的变异都留下来,抛弃严重的错误或改变。而比较轻微的突变,则有可能导致日后的疾病。

当报纸杂志上出现和基因有关的文章时,大概都不是在谈DNA字母突变的问题,而是DNA独特的排序。比如DNA指纹,它可以用来鉴定亲缘,弹劾有性丑闻的总统,也可以在刑案发生几十年后揪出嫌疑犯。这是由于每个个体之间DNA序列都存在差异。DNA序列如此不同,我们每个人都有一套独一无二的DNA指纹。受到这些细微差异的影响,我们每个人对于各种疾病的耐受力也不同。平均来说,人类基因大概每千字出现一个差异,人类基因组整体共有约600万~1000万个“单字母”差异,称为“单核苷酸多态性”,简称SNPs。SNPs就是说我们每个人所拥有的基因版本,或多或少都略有不同。虽然大部分的SNPs都无关紧要,不过根据统计分析,有一些变异与某些疾病,比如糖尿病或阿尔茨海默病有关联,然而它们对疾病的影响究竟如何,目前所知甚少。

虽然每个人的DNA版本略有不同,我们仍然可以说存在一个“人类基因组”,毕竟每1000个字母里除了那一个有可能不同以外,剩下的999个都一样。不同物种的基因组构成,由时间和自然选择两个因素造成。在进化这一伟大的计划之中,人猿变成人并没有过去太久,老实说,动物学家会说我们其实还是人猿。假设我们的祖先和黑猩猩大约在600万年前分家,然后以每代产生200个突变的速度累积差异,那到现在为止我们最多也只能改变整个基因组的1%。由于黑猩猩也以同样的速度突变,那么理论上我们和黑猩猩应该有2%的差异,不过实际的差异要小一些。比对黑猩猩和人的DNA序列的结果显示,我们和黑猩猩有98.6%的相似度。[2]这是因为自然选择会踩刹车,剔除有害突变。如果自然选择会剔除突变,那么被保留下来的DNA序列,当然会比无监督情况下的突变结果更相似一些。如前所述,自然选择会让扭曲变形的序列重新归位。

如果我们看得更久远一点,就会看到时间和自然选择这两个条件如何共同作用,织出令人赞叹的精致生命之毯。从解读出的DNA序列可以看到,地球上所有的生命都彼此相关。通过比对序列,我们可以用计算机去统计人类与任何一种生物的亲疏,从猴子比到有袋类动物,也可以和爬行类、两栖类比,或者和鱼类、昆虫、甲壳类、蠕虫、植物、原生动物、细菌比,随便你挑。所有的序列都由相同字母组成,所以是可比较的。因为受到相同自然的选择,我们甚至会共用许多一模一样的序列片段,而除此以外的序列则会变异到难以辨认的地步。如果试着解读一段兔子的DNA序列,你会发现在这段无穷无尽的碱基序列中,有些和人类一样,有些不一样,彼此交错不止,好像万花筒一样。再看看蓟花也一样,有一些片段和我们完全一样或者很类似,但是不一样的片段比兔子和我们之间的更多。这恰好反映出我们和蓟花从共祖分家后历经了更久的时间,最终导致我们走上完全不同的道路。尽管如此,我们最基本的生物化学反应还是一样的,细胞仍然使用类似的机制在运作,而这些机制正是由相似的DNA序列决定的。

基于这种生物化学的共同性,我们期望找到一段和最古老的生命(比如细菌)共享的序列,我们也确实找到了。不过相似的程度会有点混乱,因为它并不是人们想象的100%~0%,而是100%~25%,这是因为组成DNA序列的只有四个字母。如果其中一个字母被随机替换,那总有25%的机会换回原来的字母。所以如果你在实验室里随意合成一段序列,将这段序列和任意一段人类DNA序列相比,一定会有25%的相似度。“我们和香蕉的基因组序列有50%相似,所以我们是半个香蕉”的观点是误导视听。不然随意合成的一段DNA序列,都将是1/4个人类。因此,除非我们知道这些字母代表的意义,否则还是等于一无所知。

这也是为什么,我之前说沃森与克里克在1953年的那个早上,只解开了生命奥秘之谜的一半。他们解开了DNA的结构,也发现了双螺旋的每一条都可能是复制另一半的模板,因此可以当作生物的遗传密码传给下一代。然而在他们那篇著名的论文里并没提到密码代表的意义,还有待此后10年间无数杰出的研究去发现。或许解开生命密码并不像发现双螺旋结构那般,具有崇高的象征地位,但是它的重要性可能大于双螺旋本身,因为后者根本不在乎塞在序列里面的东西是什么。克里克对密码的破解也有贡献。从本章的内容来看,对我们来说更重要的是解开这串密码(这曾是现代分子生物学里最令人失望的解谜),这将会让我们更透彻地了解在40亿年前DNA是如何进化出来的。

现在我们如此熟悉DNA,所以你可能很难想象,1953年我们对这个分子生物学的基础了解的有多么少。当年沃森与克里克原论文上的DNA图像,那幅结构如两条阶梯互相旋转缠绕的图像,是由克里克的艺术家妻子欧迪勒绘制的,半个世纪来不断被重复使用,从未改动(图2.2)。20世纪60年代,沃森所写的《双螺旋》描绘了现代科学的面貌,这本书的影响力如此之大,以致让生命都艺术了起来。我还在读书时就因看了这本书,整天梦想着获得诺贝尔奖和名留青史的发现。在那时,我对于科学的印象几乎全部来自沃森的书。之后进入大学,发现现实与我对科学的期望并不一致,梦想破灭是必然的,其间我开始攀岩寻求刺激。等到好几年之后,我才渐渐领悟研究的魅力,重新找回科学带来的兴奋。

然而当时我在大学所学的,几乎全部都是沃森与克里克1950年还不知道的,但在现在已是理所当然的事。比如“基因编码蛋白质”,这一观点在20世纪50年代早期还未在科学家之间达成共识。沃森1951年来到剑桥大学时,还因为被怀疑论者如马克斯·佩鲁茨和约翰·肯德鲁等人质疑而感到恼怒。然而对于佩鲁茨与肯德鲁而言,连最基本问题,比如“基因”到底是DNA还是蛋白质,都还没有被完全证实,更遑论其他。尽管当时并不清楚DNA的分子结构,我们却已摸透了它的化学成分,也知道它的成分在各物种间几乎一样。如果说基因是遗传物质,并且决定了每个个体甚至每个物种之间的巨大差异,那么像DNA这种化学组成单调的东西,从细菌到植物到动物的几乎都一样,怎么可能解释生命的丰富与多样性?反而组成成分变化无穷的蛋白质,看上去更适合承担这项遗传工作。

图2.2 DNA 的双螺旋结构,本图显示这两条螺旋如何互相缠绕。把这两条螺旋解开的话,每一条都可以当作模板,合成全新而互补的另一条。

当时只有沃森以及少数的生物学家深信美国生物化学家奥斯瓦德·艾弗里的实验结果。艾弗里在1944年发表的研究显示,遗传物质是DNA。沃森的热忱与信念鼓舞了克里克,促使他动手解决DNA的结构问题。一旦结构问题被解决,解码就近在咫尺。然而当时关于这方面的知识是如此缺乏,必定会再次让现代人觉得惊讶。DNA看起来就是一连串字母随机组合成的无尽长链。要找出这个序列的某段顺序如何对应某种蛋白质,在理论上似乎并不困难,因为蛋白质是由一连串的子单元组成的,所谓的子单元就是氨基酸。因此,想必DNA序列可以与氨基酸序列一一对应。而如果DNA字母是万物通用的,毕竟似乎所有物种的DNA成分都一样,那么DNA对应氨基酸的方式应该也是万物通用的。但这一切在当时还不为人知,而且几乎也没人想过这种对应关系,直到沃森与克里克在老鹰酒吧里坐下来,在午餐时间写出那经典的20种氨基酸,就是今天教科书里会写的那20种。惊讶吗?这两人都不是生物化学家,但他们却是第一个找到正确答案的人。

现在问题变成了一个数学游戏,和详细的分子机制无关(我们却要死记硬背这些分子机制)。四种DNA字母要编码20种氨基酸。绝不可能是一对一编码,也不可能是二对一编码,因为两个字母最多只能组成16种组合(4×4)。因此,最低要求是三个字母,也就是DNA序列里面最少要有三个字母对应到一个氨基酸,被称为三联密码,后来被克里克和西德尼·布伦纳证实。但是这样看起来似乎很浪费,因为用四种字母组成三联密码,总共可以有64种组合(4×4×4),这样应该可以编码64个不同的氨基酸,那为什么只有20种氨基酸呢?一定有一个神奇的答案来解释为什么4种字母,3个一组,拼成64个单词,然后编码20种氨基酸。

很巧的是,第一个尝试解答这个问题的人也不是生物学家,而是热情洋溢的俄裔美籍天文物理学家乔治·伽莫夫,他因提出大爆炸理论而广为人知。伽莫夫认为,DNA序列可以直接生产蛋白质,氨基酸分子可以嵌入双螺旋间的钻石型凹槽内来合成蛋白质。不过伽莫夫的理论是纯数学的,因此当他知道蛋白质并非在细胞核里合成,所以也就不可能和DNA直接接触时,也完全不在意。这个想法只剩下理论性的内容,而没有生物方面的意义。伽莫夫主张一种相互重叠的三联密码,这是密码学家的最爱,因为这可以使信息密度最大化。假设有一段DNA序列为ATCGTC,那第一个“字”(术语叫作密码子)就是ATC,第二个字是TCG,第三个字是CGT,以此类推。重叠密码必定会减少氨基酸的可能排列方式,因为如果第一个密码子ATC可以对应某个特定氨基酸,那第二个氨基酸所用的密码子,一定要是TC开头才行,然后第三个一定要是C开头。当你费力演算完所有的排列组合之后会发现,符合这些规则的三联密码不会太多,因为A旁边一定是T,而T旁边一定是C,以此类推,很多密码子都会因不符合重叠规则而被排除。那么计算之后还剩下多少种可能的三联密码呢?伽莫夫用魔术师从帽子里变出兔子的口吻说:正好20个!

然而这是第一个被冷酷无情的实验数据否定的聪明点子,之后还有更多被否定的。所有的重叠密码都会作茧自缚。首先,根据这种编码方式,某个氨基酸一定要排在另一个氨基酸旁边。然而生物化学家弗雷德·桑格尔(这位安静的天才获得了两次诺贝尔奖,一次因为蛋白质测序,一次因为DNA测序)那时正好在帮胰岛素测序(破解胰岛素蛋白质的氨基酸排列顺序)。不久他发现,任何氨基酸都可以排在其他氨基酸旁边,蛋白质的序列没有任何限制。第二个问题是,根据重叠密码理论,任何点突变(也就是一个字母被换成另一个)都会改变一个以上的氨基酸,但是实验结果指出,点突变往往只会改变一个氨基酸。显然真正的密码并没有重叠,伽莫夫的重叠密码理论早在我们知道正确答案之前就被推翻了。基因密码学家已经开始思考我们的大地之母或许就是这么浪费。

克里克接着提出了另一个十分漂亮的理论,很快就被所有人接受了,他本人却对此有些顾虑,因为该理论尚未被实验证实。克里克结合了许多来自不同分子生物实验室的新发现,特别是沃森在哈佛大学新成立的实验室的结果。沃森那时候钟情于RNA,它像一小段单链的DNA,既存在于细胞核中,也存在于细胞质中。更有趣的是,沃森认为RNA是某个小细胞器的一部分(现在称为核糖体),而这个小细胞器似乎是细胞合成蛋白质的场所。所以沃森认为,DNA长链安静地待在细胞核里不动,而当细胞要生产蛋白质时,其中一小部分序列就可以作为模板,复制出一小段RNA,这一小段RNA则会离开细胞核,与等在外面的核糖体结合。这段敏捷的RNA很快就被命名为“信使RNA”或mRNA。早在1952年,沃森就写信告诉克里克:“DNA合成RNA,RNA合成蛋白质。”而现在克里克真正感兴趣的问题是,这一小段mRNA的字母序列,如何翻译成蛋白质里面的氨基酸序列。

克里克思考着,他认为mRNA可能需要一系列“适配器”来帮助完成翻译,每一个适配器都负责携带一个氨基酸。当然每一个适配器一定也是RNA,而且都带有一段“反密码子”序列,这样才能和mRNA序列上的密码子配对。克里克认为,RNA的配对原则和DNA的一模一样,也是C配G,A配T,以此类推。[3]在当时适配器分子纯属假设,不过几年之后就有研究证明,确实如克里克所预测的,适配器分子由RNA分子组成。它们现在叫作“转运RNA”或tRNA。现在整个工程变得有点像乐高积木,一块积木接上来又掉下去,一切都顺利的话,它们就会这样一个接一个地搭成精彩万分的聚合物。

但是克里克猜错了蛋白质的合成机制。在这里我要解释得详细一点,因为实际的机制比克里克所想象的更古怪,但是他的构想可能和这套系统的起源有些关联。克里克认为,mRNA片段悬浮在细胞质里,密码子的部分像母猪**般突出,等着tRNA像小猪吸奶般一个个凑上来,和相对应的密码子结合。当所有的tRNA都一个接着一个在mRNA上从头排到尾之后,它们所携带的氨基酸就会像小猪尾巴般留在外面,随时可以被连接起来合成一个大的蛋白质分子。

克里克理论的问题是,tRNA会随机出现,然后连接到离它最近的密码子上。如果它们不是按顺序从第一个密码子的起点开始,在最后一个密码子的终点结束,那tRNA如何知道它现在所带的这个密码子的第一个字母在哪儿,最后一个字母在哪儿?它们要如何读出一段有意义的信息呢?假设一段序列是ATCGTC,正确的顺序是一个tRNA接到ATC上,另一个接到GTC上,这时候该如何阻止一个认识CGT的tRNA从半路杀出,接到中间的位置上然后毁了整段信息?克里克的答案十分专制,就是不允许这种情况发生。如果要正确无误地读出一段信息,那就不能让每种字母组合都有意义。那么哪些组合必须被剔除?克里克认为所有只含单个字母A、C、U或G所组成的序列都不合格。比如一连串的AAAAAA就不可能含有任何意义。接着他找遍所有可能组合,按照如果ATC有意义,那么同样字母的其他两种组合就必须被剔除的规则筛选(也就是说,如果ATC有意义,那TCA和CAT就不准有意义)。还剩下多少可能的组合?又是不多不少20个!(在64种排列组合里,AAA、UUU、CCC和TTT都被剔除,在剩下的60种组合里,如果每3种排列组合又只有一种有意义,那60除以3就是20种。)

和重叠密码理论不同的是,克里克的密码组并不会限制氨基酸序列的排列方式,而一个点突变也不会同时改变好几个氨基酸。在当时,他的理论确实完美地解决了序列编码的问题,也将64种密码子成功缩减到20组有意义的密码子,并且和所有已知的数据更吻合。尽管如此,这个理论还是错的。数年之后,实验证明如果合成一段只含AAA密码子的RNA序列(根据克里克的理论,这组密码子无意义),可以合成一种叫作“赖氨酸”的氨基酸,而且也能转换出一条只含赖氨酸的蛋白聚合物。

随着实验技术进步而且越来越精密,在20世纪60年代中期许多实验室陆续解开了序列密码。然而经过一连串不懈的译码工作后,大自然却好像随兴地给了个潦草结尾,让人既困惑又扫兴。遗传密码子的安排一点也不具创意,只不过“简并”了(意思就是说,冗余)。有三种氨基酸可对应六组密码子,其他的则各对应一到两组密码子。每组密码子都有意义,还有三组的意思是“在此停止”,剩下的每一组都对应一个氨基酸。这看起来既没规则也不美,根本就是“美是科学真理的指南”这句话的最佳反证。[4]甚至,我们也找不出任何结构上的原因来解释密码排列,不同的氨基酸与其对应的密码子间似乎并没有任何物理或化学的关联。

克里克称这套让人失望的密码系统为“冻结的偶然”,而大部分人也只能点头同意。他说这个结果是冻结的,因为任何解冻(试图去改变密码对应的氨基酸)都会造成严重的后果。一个点突变也许只会改变几个氨基酸,而改变密码系统本身却会从上到下造成天大灾难。就好似前者只是一本书里无心的笔误,并不会改变整本书的意义,然而后者却将全部的字母转换成毫无意义的乱码。克里克说,密码一旦被刻印在石板上,任何想改动它的企图都会被处以死刑。这个观点至今仍有许多生物学家认同。

但是大自然的“偶然”密码系统却给克里克带来一个问题。为什么只有一个偶然?为什么不是好多个偶然?如果这套密码系统是随机产生的,那理论上它不会优于其他密码系统,因此也不会有什么自然选择“瓶颈效应”让这套密码系统胜出。用克里克的话来说就是,其优势远超其他密码系统,因而独活下来。但是既然没有选择的瓶颈,那为什么现今没有好几套密码系统,存在于不同的生物体内呢?

答案很明显,那就是地球上所有的生物都是来自同一个共祖,而这套密码系统早在共祖身上就决定好了。更哲学一点的说法就是,生命只在地球上诞生了一次,才使得这套密码系统看上去如此独特、罕见甚至反常。对于克里克而言,这暗示了一次感染、一次播种。他猜测生命是由某个外星生物,将一个类似细菌的东西播种到地球上。他甚至进一步推测,认为细菌是外星人用宇宙飞船送到地球上的,他称这一理论为“定向泛种论”,并在1981年出版的《生命:起源与本质》里详细阐述了该理论。如同科普作者马特·里德利给克里克写的传记所说:“这个主题让许多人大开眼界。伟大的克里克竟写出外星生命乘坐宇宙飞船在宇宙间播种的故事,他是被成功冲昏头了吗?”

偶然密码系统这样的概念,是否可以证明上述的生命观,取决于个人判断。但这个理论是在说,密码本身并不需要任何优势或劣势来决定能不能突破瓶颈,只需某种偶然情况就可以选择某些特定生命,甚至是某些不可思议的意外,比如小行星撞击地球,就可以毁灭掉所有生命只留下一种,然后就产生了一套唯一的密码系统。无论如何,克里克写作的时机不对。因为早在20世纪80年代初期,克里克还在写书的时候,我们已经渐渐了解到这套密码系统既不是意外,也没有被冻结。在这套密码里暗藏着另一套固定模式,是一种“密码子里面的密码”,将带给我们一条关于40亿年前生命起源的线索。现在我们终于知道这套密码,并不是当初被密码学家嫌弃的雕虫小技,而是唯一一套可以同时耐受各种变异又加快进化脚步的密码。

这是一套夹带在密码子中的密码!其实从20世纪60年代开始,科学家已经注意到这套密码系统里面似乎存在某种模式,不过大部分的研究,包含克里克自己都忽略了,觉得那只是统计上的误差。然而整体来看,这套密码里面就算有模式,也显得意义不大。为什么模式看起来似乎没有意义呢?来自美国加州的生物化学家布莱恩·戴维斯就在研究这个问题,他一直对遗传密码的来源非常感兴趣。戴维斯认为许多人因为认同“冻结的偶然”,失去了研究密码来源的兴趣,因为如果只是偶然,那又何必研究呢?而剩下的少数科学家,则被流行的原始汤理论所误导。如果这套密码是从原始汤中诞生,那么这些分子的基本结构,必定是某些可以在原始汤中通过物理或化学反应产生的分子。如果是这样,那应该会有一小群氨基酸曾是形成遗传密码的基础,后来再渐渐加入其他的氨基酸。恰好也有一些证据似乎支持这种假设(虽然并不正确)。事实上,只有当我们从生物反应的角度来看待密码,也就是当原始细胞开始利用氢和二氧化碳为自己制造生命建材时,其中的模式才有意义。

这些难解的模式是什么?所有三联密码的第一个字母都有特定的对应方式。第一个字母之所以引人注目,是因为它与前体合成氨基酸的反应有关。该对应方式让人十分诧异,需要好好解释一下。今天的细胞通过一连串的生物化学反应,把数个简单的前体合成一个氨基酸。让科学家惊讶的是,这些前体似乎都和三联密码的第一个字母有某种关系,举例来说,所有以丙酮酸为前体合成的氨基酸,它们密码的第一个字母都是T。[5]我这里用丙酮酸举例,是因为在第一章我们已经见过它了。我们提到这种分子可以在碱性热泉,经由矿物催化剂的帮助,通过氢和二氧化碳反应合成。然而不只是丙酮酸,所有氨基酸的前体,都是克氏循环这个生命基础化学反应的一部分,因此都可以在前面提过的碱性热泉中合成。也就暗示了热泉和三联密码的第一个字母有某种程度的关联,我承认现在这样说还很牵强,不过后面会详述。

那么三联密码的第二个字母有没有意义?第二个字母和氨基酸是否容易溶于水有关,或者说和氨基酸的疏水性有关。亲水性氨基酸会溶于水,疏水性氨基酸不会溶于水,但会溶在脂肪或油里,比如溶在含有脂质的细胞膜里。所有的氨基酸,可以从“非常疏水”到“非常亲水”排列成一张图谱,而正是这张图谱决定了氨基酸与第二个密码字母之间的关系。疏水性最强的六个氨基酸里有五个,第二个字母都是T,所有亲水性最强的氨基酸第二个字母都是A。介于中间的有些是G有些是C。总结来说,不管是什么原因,三联密码的前两个字母和它翻译的氨基酸之间确有关联。

最后一个字母是造成密码简并的主因,其中有八个氨基酸存在所谓的四重简并(科学家爱死这种术语了)。一般人听到这个词可能会在脑海里面想象一个摇摇晃晃的醉汉,连续掉进四条水沟。但是当生物化学家这么讲的时候,意思是三联密码的第三个字母不含任何信息,那么不管接上哪一个字母都没关系,这组密码子都会翻译出一样的氨基酸。以甘氨酸为例,它的密码子是GGG,但是最后一个G可以代换成T、A或C,这四组三联密码都编码甘氨酸。

第三个字母的简并性暗示了一些有趣的事情。前面提过,二联密码可以编码16种氨基酸。如果我们从20个氨基酸里拿掉5个结构最复杂的(剩下15个氨基酸,再加上一个终止密码子),这样前两个字母与这15个氨基酸特性之间的关联就更明显了。因此,最原始的密码可能只是二联密码,后来才靠“密码子捕捉”的方式成为三联密码,也就是各氨基酸彼此竞争第三个字母。如果是这样,那么最早的15个氨基酸在“接手”第三个字母时,很可能会“作弊”。比如说,那15个由初期二联密码所编码的早期氨基酸,占用了如今的53组密码(总共有64组),也就是每个氨基酸平均使用3.5组密码子,而剩下5个比较晚出现的氨基酸只使用了8组密码子,平均每个氨基酸才用1.6组密码子。显然早起的鸟儿有虫吃。

好,现在就假设最原始的密码是二联密码而非三联密码,它们总共负责编码15个氨基酸(外加一个终止密码子)。这套早期的密码看起来似乎非常符合决定论,也就是说,早期密码完全由物理或化学因素形成。第一个字母和氨基酸前体之间的关系直截了当,而第二个字母又和氨基酸的疏水性相关。“偶然”在这里恐怕没太多插手的机会,因为物理定律不容许任何偶然。

但是第三个字母却是另外一回事。这个位置有很大的弹性,因此可以随机选择,所以就有可能让自然选择去选出一个“最适当”的字母。至少这是生物学家劳伦斯·赫斯特和斯蒂芬·弗里兰在20世纪90年代末提出的大胆主张。他们当时把天然基因密码和计算机随机产生的几百万组密码拿去比对,结果轰动一时。他们想知道,如果发生点突变这种把一个字母换掉的变异,哪一套密码系统最经得起考验。最经得起考验的密码系统应该能保留最多正确的氨基酸,或将它代换成另一个性质相似的氨基酸。结果他们发现,天然的基因密码最经得起突变的考验。点突变常常不会影响氨基酸序列,而如果突变真的改变了氨基酸,也会由另一个物理特性相似的氨基酸来取代。据此,赫斯特与弗里兰宣称,天然的遗传密码比成千上万套随机产生的密码要优良得多。它不但不是大自然密码学家愚蠢而盲目的作品,而且是万里挑一的密码系统。他们还说,这套密码除了可以忍受突变,还可以降低灾难发生时造成的损失,因此可以加快进化的脚步。因为如果突变不是灾难性的,那应该会带来更多的好处。

除非承认存在神明,不然唯一能解释这种杰作的就是自然选择。如果这是真的,那生命的密码就是进化出来的。事实上,我们已经发现这套“通用”的遗传密码,在细菌和线粒体之间存有一些细小的差异,如果这不是由其他因素造成的,那说明它们的密码系统确实可以在某些特殊情况下进化。但你也许会问,这样的改变为什么没有造成如克里克所说的破坏呢?答案是偷偷地改。如果一个氨基酸使用四组甚至六组密码子,那么其中也许有几组会更常用,那些较少用的就可以分配给其他不同(但是性质相似)的氨基酸,而不会造成灾难,如此一来密码系统就进化了。

总的来说,密码子中的密码是自然法则催生的,开始的时候,它和氨基酸的合成以及可溶性有关,接着则是增加多样性以及优化。那么现在的问题是,哪一种自然法则作用在谁身上?又是如何作用的呢?

关于这点目前还没有肯定的答案,同时也还有许多难题尚未解决。最先遇到的难题就是蛋白质与DNA两者谁先谁后,这种类似于鸡生蛋蛋生鸡的问题。因为DNA分子活性比较低,它需要特定蛋白质的帮助才能完成自我复制。但反过来讲,特定的蛋白质不是无缘无故产生的,它们需要经过自然的筛选,而要通过自然选择,它们就必须能被遗传且能产生变异。然而蛋白质本身不是遗传的模板,它要由DNA编码。所以问题就是,蛋白质没有DNA就无法进化,而DNA没有蛋白质也无法进化。如果两者缺一不可,那进化就永远无法发生。

在20世纪80年代中期,科学家有一项超凡的发现,那就是RNA可以当作催化剂。RNA分子很少形成双螺旋,它们常卷成小而复杂的形状,同时具有催化作用。这样一来RNA分子就可以打破前面的困境。在假设的“RNA世界”里面,RNA既可以扮演DNA的角色也可扮演蛋白质的角色,它可以催化自我复制以及很多其他反应。现在密码不再是DNA的专属,它也可以通过RNA和蛋白质的直接作用来产生。

从现代细胞工作的角度来看,该假设是有意义的。今天的细胞里,氨基酸并不会和DNA直接接触,当细胞需要合成蛋白质时,许多基础反应都是由“RNA酶”(叫作核酶)催化完成的。“RNA世界”这个词,出自沃森的哈佛同事沃尔特·吉尔伯特发表在《自然》上的一篇论文。该论文是现在有史以来阅读量最多的文章之一。该假设对学界有着催眠般的影响力,它让生命密码的研究方向,从“DNA密码如何编码蛋白质”转向“RNA和氨基酸之间到底发生了什么”,然而至今我们仍没有明确的答案。

在对RNA世界充满兴趣的氛围之下,你也许会很惊讶,小片段RNA分子的催化性质竟然被忽略了。如果较大的RNA分子具有催化能力,那么很小片段的RNA分子,像单个或一对字母组成的那种RNA,或许也有催化力,尽管能力没大段的那么强。最近受人景仰的美国生物化学家哈德罗·莫洛维兹,与分子生物学家谢利·科普利以及物理学家埃克里·史密斯合作,指出了这种可能性。他们的构想或许不完全对,不过我认为在解释生命密码起源时,这就是我们所需要的理论。

莫洛维兹他们假设由一对字母组成的RNA(术语称为双核苷酸)也可以作为催化剂。他们认为双核苷酸会和氨基酸的前体(比如丙酮酸)结合,然后催化它们成为氨基酸。至于催化成哪一种氨基酸,则要看双核苷酸里的字母是什么(规则就如前面讨论过的)。理论上第一个字母会决定氨基酸的前体,第二个字母决定反应形式。比如说,如果两个字母是UU,那么丙酮酸会先接上来,然后被转换成疏水性极强的亮氨酸。同时莫洛维兹也为这个简单而迷人的构想,提供了许多可行的反应机制,让它们看起来可行。不过我还是希望有一天能看到这些反应真的在试管里发生。

现在,从这里到三联密码只剩下两步了(至少理论上如此),而它们都只需要简单的字母配对即可。首先,一段较大的RNA分子和双核苷酸通过惯常的碱基配对法则配对,也就是G配C,A配U。接着氨基酸会被转移到这个较大的RNA分子上,因为分子较大,吸引力也比较大。[6]结果就是一段RNA分子接了一个氨基酸,而氨基酸的种类取决于最初携带它的双核苷酸字母。这其实就是克里克当初提倡的“适配器”原型:一段RNA链带着一个“正确的”氨基酸。

第二步则是将二联密码变成三联密码,配对规则不变。如果三个字母配对的效果比两个字母配对来得好(也许好处是分子间有较多空间或结合力较强),那三联密码自然会胜出。此时前两个字母就由前面的条件所决定,而第三个字母则可以在一定范围内改变,使得密码可能变异从而优化。我认为克里克当初的假设中可能正确的地方是,他认为带着氨基酸的RNA会像小猪吸吮母猪**一样凑上来,那么空间太小就有可能将相邻的RNA分子推开,从而促使它们“平均”间隔三个字母。此时还没有阅读起始点的问题,也没有蛋白质参与,仅有氨基酸和RNA两者作用。这时整套密码的基础已经完备,后来新增加的氨基酸可以直接使用还没被用过的密码组。

当然整套理论都还只是假说,目前也没有太多证据可以证明。但是重要的是它为解开密码起源之谜带来希望之光,从简单化学反应到三联密码诞生,看起来也有可能发生,也可以被实验检验。尽管如此,你也许会认为这一切虽然听起来很好,但是我一直在讲的RNA分子好像直接长在树上,随便摘就有似的。而且我们是如何从简单化学反应,走到对蛋白质进行自然选择?又如何从RNA进步到DNA?最近几年的研究结果提供了一些不俗的答案。而新的发现恰好支持第一章提到的生命诞生于海底热泉的假设。

第一个要问的问题就是,RNA分子是从哪里来的。虽然我们对RNA世界已经研究了20年,然而这个问题却几乎从来没有被好好地问过。一个大家绝口不提但是极为愚蠢的假设是:RNA不知为何就这样存在于原始汤中。

我不是开玩笑的,科学家的研究大多解答极其专一的问题,他们不可能一次回答所有的问题。美妙又威力无穷的RNA世界假说,其实建立在一个“恩赐”上,也就是RNA事前已经存在了。对于提倡RNA世界的先驱来说,重点不在于RNA从哪里来,而在于它们能做什么。当然还是有人对RNA的合成过程感兴趣,然而他们却很快地陷入各自的小圈子里,循环往复地为自己所拥护的假说争辩。或许RNA是在外太空由氰化物合成的,或许它们是闪电击打地球上的甲烷和氨气合成的,又或许它们是在海底火山口冶炼愚人金时一起产生的。这些假设都各有各的优点,但是也都面临一个非常基本的问题,那就是“浓度问题”。

要制造单一的RNA字母(核苷酸)并不容易,不过如果核苷酸浓度够高,它们会很快形成聚合物(也就是RNA分子)。大量的核苷酸分子会自动聚在一起变成RNA长链。但是当核苷酸浓度降低时,逆反应就会发生,RNA会自己降解成单一核苷酸。问题就在这里,RNA每自我复制一次,就会消耗核苷酸,因此导致核苷酸浓度降低。除非有办法持续快速地生产核苷酸(且一定要比消耗速度快),否则RNA世界不可能行得通,当然也无法解决任何问题。这样当然不行。所以,任何人如果想要在科学上获得一点实质的进展,那最好先把RNA当作天赐的礼物。

当RNA起源的解答遥遥无期时,他们忽略这个问题确实有其正当性。不过解答最后出现得颇有戏剧性。RNA分子当然不是长在树上,而是长在碱性热泉里,或者至少可从模拟的泉口中得到。不屈不挠的地质化学家罗素(我们在第一章已经介绍过他)、迪特尔·布劳恩与他的德国同事,在2007年发表了一篇极为重要的理论论文,文中提到,在碱性热泉环境下核苷酸的数量可以累积到惊人的程度。这与热泉区可以产生极大的温度梯度有关。罗素认为,在第一章提到的碱性热泉里,泉水通过许多细小而互相连接的孔洞,而热泉的温度梯度会通过这些孔洞循环制造出两种流动。第一种是对流,就像煮开水时会看到的。第二种则是热扩散,也就是热会往较冷的海水里扩散。借着这两种流动的交互作用,热泉会渐渐在较低的孔洞中填满各种小分子。在他们的仿真热泉系统中,核苷酸的浓度可以达到起始浓度的数千甚至数百万倍。如此高浓度的核苷酸很容易产生RNA分子。因此他们推论,这样的环境会强迫生命分子从高浓度的环境中开始进化。

不过碱性热泉还可以做得更多。理论上较长的RNA链或DNA链,因为体积较大更容易填满孔洞,会比单一核苷酸累积更多。据估计,100个碱基大小的DNA分子可以累积到起始浓度的1000万亿倍。如此高的浓度足以让我们前面讨论过的各种反应发生,比如RNA分子彼此结合之类。最有趣的是在这里忽高忽低的温度环境中(如热循环一般),可以发生全世界实验室里随处可见的聚合酶链式反应(简称为PCR)来促进RNA分子复制。在进行PCR时,高温会让DNA分子解旋,然后DNA就可作为模板,等温度较冷时就有一条单链可以开始复制。结果导致分子复制的速度呈指数级增加。[7]

总结一下,热泉区的温度梯度可以让核苷酸浓度增加到某种程度,从而促进RNA分子形成。同样的梯度也会增加RNA的浓度,有利于分子接触。而忽高忽低的温度可以促使RNA复制。我们恐怕很难找到一个比这里更适合形成RNA世界的地方了。

那么关于第二个问题,我们如何让RNA分子从自我复制、彼此竞争的世界,走向一个比较复杂,并开始制造蛋白质分子的世界呢?同样,热泉也许可以给我们答案。

如果在试管里加入RNA,然后再放入一些材料以及所需的能量(比如ATP),它就会自我复制。事实上,除了自我复制以外,它还会开始进化,这是20世纪60年代美国分子生物学家索尔·斯皮格曼和其他人所观察到的现象。RNA在试管里面复制几代之后,复制速度会越快来越快,近乎疯狂。虽然实验过程有人工参与,但它们自发变成了会不断加速自我复制的RNA链,超乎想象,简直就是“斯皮格曼的怪物”。有趣的是,你可以从任何东西开始反应,不管是如病毒那样复杂的RNA,或者是人工合成的简单的RNA。你甚至也可以只加入一些核苷酸外带一些聚合酶去把它们连在一起。不管你从哪里开始,它们最后都会趋向相同的结果,就是变成一样的“怪物”,一样疯狂自我复制的RNA链。这些斯皮格曼怪物很少超过50个字母,就像分子版的《土拨鼠之日》[8]。

重点就在这里,斯皮格曼怪物不会再变得更复杂,它会停在50个字母的长度,因为这恰好是复制酶所需要的长度。没有复制酶,RNA链就无法继续复制。当然,RNA分子本身目光如豆,所以在这样的溶液里它也不会变得更复杂。那么,最原始的RNA凭什么要开始牺牲自己的复制速度,来换取制造蛋白质的能力呢?要跳出这个框架,唯有当选择发生在“更高层级”时才有可能。也就是说,自然选择的对象变成某个整体(比如细胞),而RNA只是整体中的一部分。问题是今天所有的有机体细胞都太过复杂,它们不可能未经进化就一下子出现。所以自然选择一定要作用于细胞,才不会允许RNA拼命复制。这还是一个鸡生蛋蛋生鸡的两难问题,就像蛋白质和DNA谁先谁后的问题一样,虽然没有后者那么出名。

我们已经看过RNA可以完美地解决DNA和蛋白质谁先谁后的问题,那么现在谁来打破RNA出现的问题?其实答案就在眼前,那就是碱性热泉已经做好的无机矿物细胞。这样的矿物细胞大小恰好和真的细胞一样,而且热泉区又无时无刻不在制造它们。所以如果一个细胞内包含的所有分子,可以源源不断地产生新的材料帮助自我复制,那么这个细胞就会开始“繁殖”,也就是说,细胞内的材料会集体侵入其他无机细胞的空腔。相反,如果是一群只晓得尽快复制自己的“自私”RNA,那最终它们就会输掉竞争,因为它们不会持续产生复制自我所需的新材料。

换言之,碱性热泉环境会渐渐地淘汰只会快速复制自我的RNA分子,而选择出具有完整代谢功能、能独力运作的完整细胞。毕竟蛋白质才是真正能够支配代谢的主角,不可避免地,它们一定会取代RNA。不过蛋白质当然不会突然出现,最早的代谢一定是由矿物质、核苷酸、RNA、氨基酸和一些复杂一点的分子(比如接在RNA上的氨基酸)共同协力完成。这里的重点是,原本只是简单的分子间化学亲合力,在这个允许细胞自由增生的环境中,变成筛选复制整体的能力,也就是说,筛选出能够自给自足,最终可以独立自主的生命。而DNA起源的最后一条线索,正是从已经自主的生命里找到的。

细菌之间有一道巨大的鸿沟,将它们分成两群。在第四章里我们将会看到这鸿沟对进化来说有多重要。在此,我们只要关注它和DNA起源的关系即可,不过这关系也够深厚了。鸿沟的一边是真细菌(eubacteria,希腊文的意思为“真正的”细菌),另一边是一群从许多方面来看都和真细菌一样的细菌。这第二群细菌现在叫作古细菌,或简称古菌。古细菌之所以得名,是因为当初认为它们存在已久非常古老,不过现在有部分学者认为,古细菌未必比真细菌古老多少。

也许就是这么巧,真细菌和古细菌有可能都从海底热泉中诞生的,否则很难解释为何两者使用一模一样的基因密码,合成蛋白质的方式也一样。不过它们似乎是后来才各自独立学会如何复制DNA的。DNA和基因密码必定只进化过一次,但是复制DNA,这个在各细胞代代相传的重要机制,却似乎进化过两次。

如果该主张不是来自聪明又严谨的计算遗传学家尤金·库宁,那我大概会满腹怀疑地掉头走开。库宁是位俄裔美国科学家,现在任职于美国国立卫生研究院。库宁的团队并非一开始就试图去证明这个全新的观点,他们是在系统地比对真细菌与古细菌的DNA复制系统时,无意间发现的。细致比对真细菌与古细菌的基因序列之后,库宁他们发现这两种细菌使用的蛋白质合成机制大同小异。比如说,它们从DNA转录到RNA,再从RNA翻译成蛋白质的过程非常类似,而且使用的酶也显然来自同一个共祖(这是基因序列比对的结果)。但是它们复制DNA所使用的酶就不是一回事了,这两者之间几乎没有什么共通性。我们只能用这两种细菌分异太久来解释这一奇怪的现象,但是问题就是,为什么分异时间一样久的DNA转录和翻译系统,却没有产生这样极端的差异呢?最简单的解释,就是库宁所提出的那个全新假说:DNA的复制系统曾经进化过两次,一次在古细菌里,一次在真细菌里。[9]

该假说对大多数人来说十分骇人,不过对一位杰出而个性温和、在德国工作的“得克萨斯人”来说却正好满足需求。我们在第一章提到过生物化学家马丁,此时他已经和罗素一起合作在探索碱性热泉的生化反应了。马丁和罗素在2003年发表了一篇完全不合当代主流意见的论文,提出他们自己的独到见解。他们认为古细菌与真细菌的共祖,并非可以自由生活的有机体,而是受困在多孔矿物岩石区的某种会自我复制的东西,但它们尚未逃离迷宫般的热泉矿物细胞腔。为了支持自己的观点,马丁和罗素还列出了一长串古细菌与真细菌之间难以理解的差异。特别是两者的细胞膜和细胞壁的构造完全不同,似乎暗示了两群细菌为了从相同的岩石禁锢里出逃,各自进化出了不同的逃离机制。这样的假说对大部分的人来说都太过新异,但是对库宁来讲,简直就是为他的观察结果量身定做的。

很快马丁和库宁就开始合作,讨论基因与基因组起源于碱性热泉的可能性,然后在2005年发表了那些充满启发性的想法。他们认为古老矿物细胞的生命周期,或许与现在的反转录病毒十分类似,比如艾滋病毒。反转录病毒的基因组通常都很小,成分是RNA而非DNA。当反转录病毒入侵细胞后,它会用一种“反转录酶”把自己的RNA反转录成DNA。这段DNA就会插入宿主细胞的基因组中,当宿主细胞读取自己的基因时,也会一起读到病毒的基因,从而帮助病毒完成复制。所以当病毒复制自己时,使用的是DNA,然而它却把RNA作为遗传物质,传给下一代。病毒缺乏的正是复制DNA的能力。一般来说,这种比较复杂的程序都需要许多酶共同参与。

这种生命周期有优点也有缺点,最大的优点就是繁殖迅速。既然病毒可以利用宿主细胞的整套机器把DNA转录成RNA,再翻译成蛋白质,那病毒自己就可以丢掉一大堆基因,省下不少时间和麻烦。而最大的缺点是,病毒必须依赖“适当的”细胞才能生存。第二个比较小的缺点是,RNA能储存的信息和DNA相比十分有限。RNA分子的化学稳定性较差,不过反过来说,又比DNA分子容易反应,这是RNA分子具有化学催化性的原因。但也因为这种化学活性,大段的RNA分子容易断裂,而这种尺寸限制将会影响病毒独立自主的能力。一个反转录病毒必需包含的信息量,差不多就是RNA所能储存的最大信息量了。

不过在矿物细胞里就不一样了。矿物细胞可以提供至少两个好处,让RNA式的生命进化得更复杂。第一个好处是许多独立生活所需的物资,热泉都可以免费提供,这样至少让细胞有个好的开始。比如快速增加的矿物细胞已经有完整的外膜,也会提供能量。就某方面来说,广布在热泉口的会自我复制的RNA,已是病毒了。第二个好处则是这些群聚在一起的RNA分子有很多机会,可以通过互相连通的矿物细胞彼此混合,任意配对。“合作融洽”的RNA分子们,如果可以一起扩散到邻近的细胞里,就有可能在选择中胜出。

马丁和库宁所设想的,就是这样一种出现在矿物细胞中的互助合作式的RNA分子,每段RNA分子各自携带相关基因中不同的几个。这种生活模式当然有缺点,其中最大的致命伤就是RNA族群有可能面临找不到配合对象的窘境。然而如果有一个细胞能够把所有合作愉快的RNA片段都转换成一整段DNA,那它就掌握了所有的“基因组”,可以保存所有的优点。它可以用类似反转录病毒的方式繁殖,把所有基因转录成一群RNA,然后感染邻近的细胞,让它们也有能力把所有的遗传信息再存回DNA银行里。每一群RNA都从这个银行里直接铸造,所以不太容易出错。

矿物细胞要在这种情况下“发明”DNA有多难?可能不会很难,事实上,应该会比发明复制DNA的整套机器简单得多(复制RNA比复制DNA简单)。DNA和RNA在化学成分上只有两处小小的不同,但是加在一起却让整个结构大不相同:一个是卷曲又具有催化能力的RNA分子,另一个是具象征意义的双螺旋DNA(在沃森与克里克1953年发表在《自然》上的论文里曾经不经意地这样预测过)。[10]这种细小的变异在热泉区恐怕很难不发生。这个反应第一步要先从核糖核酸(RNA)上移走一个氧原子,让它变成“脱氧”核糖核酸(DNA)。这种机制牵涉到一些活性很强的中间物(也就是自由基),至今仍可在碱性热泉中发现。反应的第二步则要在尿嘧啶(U)上面加上一个甲基(CH3-),让它变成胸腺嘧啶(T)。同样,甲基是甲烷的自由基碎片,在碱性热泉口更是信手拈来。

现在我们知道了,要制造DNA并不难,它很可能和RNA一样在碱性热泉中自行合成(我是说它可能从简单前体,然后由核苷酸、氨基酸、矿物质等东西催化之类的)。比较麻烦的地方是要维持密码信息的正确性,也就是要制造出一段和RNA一模一样的序列,但是字母要换成DNA。当然这也不是不能克服,因为从RNA转换成DNA,只需要一个酶,那就是反转录酶,而这个酶现在依然存在于反转录病毒中(比如艾滋病毒)。让人意外的是,反转录酶过去被认为是打破生命中心法则(就是由DNA制造RNA然后制造蛋白质的法则)的酶,而如今这种酶也可以把病毒RNA所感染的早期多孔岩石,变成现在我们熟知的生命形态。或许,我们真该感激这些微小的反转录病毒,为我们带来生命的起源。

故事中还有太多细节没有讲到,还缺少很多的片段,但我试着把故事拼凑得完整而有意义。我不会假装本章里所讨论的假说都已成定论,它们只不过是遥远的过往透露给我们的一点线索而已。但是这些线索都非常有用,并且有朝一日一定可以被某个可信的理论解释得更完美。在生命的密码里面确实隐藏着某种模式,是化学反应和自然选择一起作用才形成的。海底热泉的热流确实可以浓缩核苷酸、RNA和DNA,并让这迷宫般的矿物细胞变成理想的RNA世界。而在真细菌和古细菌之间,也确实存有着无法简单解释的差异。种种迹象都显示生命的初始形式始于反转录病毒。

我由衷地认为在本章讲的故事很可能就是真相,这让我十分兴奋。不过在内心深处,却仍有一个疑点困惑着我,那就是某些线索暗示生命曾经在碱性热泉口进化了两次。究竟是成群的RNA从一个热泉感染到邻近的另一个热泉,最终遍布大海,让自然选择在全球进行,还是在某一个特别的热泉,其特殊的环境让古细菌与真细菌可以同时诞生?或许,我们永远也不会知道答案。在偶然与必然之间,仍有许多空间留给我们思考。

[1]你也许会怀疑,如果有这么多的突变,为什么到现在我们还没被突变给毁了?这个问题同样困扰着许多生物学家。不过答案就在一个字:性。关于这点我会在第五章详述。

[2]这个数据是指DNA序列的相似性。在黑猩猩和人类分家之后,还发生了其他较大的基因改变,比如染色体融合或缺失,导致两者全部基因组的相似性大概在95%。相较之下,人和人的基因差异非常微小──大家的基因有99.9%都一样。这种有限的差异代表的正是最近发生的族群“瓶颈效应”,也就是说,大约在15万年以前,非洲的某一个小族群,通过一波又一波的迁徙,形成现在全世界所有的人类。

[3]在RNA里面不像DNA一样使用胸腺嘧啶(T),它被置换成另一个略微不同的分子,叫作尿嘧啶(U)。这是DNA与RNA分子的不同之一,另一个不同之处则是RNA使用的糖类叫作核糖,而不是DNA使用的脱氧核糖。此外这两者就没有差异了。稍后我们会看到这两处小小的化学差异如何造成巨大的功能差异。

[4]那么大自然如何解决序列顺序的问题?很简单,它一定从mRNA的起点开始读,在终点结束。这过程其实极度机械化。tRNA并不像小猪寻找母猪**那样接上来,而是mRNA穿过核糖体中间,就像录音带通过磁头一般,然后核糖体会一个密码子一个密码子地念,一直念到终止密码子。因此,氨基酸也不是等全部就位了之后才接起来,而是一个一个地照顺序接出来,等核糖体念到终止密码子,氨基酸长链也就做好被释放出去。一段mRNA也可以同时接上好几个核糖体,每个核糖体都制造一个独立的蛋白质。

[5]你可以不管这些化学分子名称,但是我还是要介绍一下:所有由α-酮戊二酸所合成的氨基酸,其三联密码第一个字母都是C;所有由草酰乙酸合成的氨基酸,第一个字母都是A;所有由丙酮酸合成的氨基酸,第一个字母都是T;最后,所有简单前体通过单一步骤所合成的氨基酸,第一个字母都是G。

[6]氨基酸和哪一小段RNA连接,很可能取决于这段RNA的序列。美国科罗拉多大学的迈克尔·雅鲁斯与他的同事曾经研究过,含有比较多反密码子的小段RNA,与“正确氨基酸”的结合力,比其他任何氨基酸的结合力都大好几百万倍。

[7]在实验室里进行反应需要酶──DNA聚合酶,而看起来在热泉要促进DNA或RNA复制也需要酶,但这并不是说一定要蛋白质做成的酶才行,一个由RNA形成的复制酶应该也可以。现在寻找这种由RNA形成的复制酶变得像在寻找圣杯一样,科学家认为它极有可能存在。

[8]该片主人公偶遇暴风雪后,一直重复过同一天。

[9]真核生物复制DNA的方法,来自古细菌而非真细菌,至于为什么,我会在第四章讨论。

[10]沃森和克里克注意到:“不太可能用核糖代替脱氧核糖做出这种结构(双螺旋),因为多出来一个氧原子会太挤,对于产生范德华力(分子间作用力)的距离来说太近了。”