DNA是遗传物质,是携带遗传信息的载体。信息从基因的核苷酸序列中被提取出,用来指导蛋白质合成的过程对地球上的所有生物都是相同的,分子生物学家称之为中心法则(central dogma)。生物体的遗传信息以密码形式编码在DNA分子上,表现为特定的核苷酸排列顺序,并通过DNA的复制(replication)使遗传信息从亲代传向子代。在后代的生长发育过程中,DNA分子中的遗传信息转录(transcription)到RNA分子中(即RNA聚合酶以DNA为模板合成RNA),再由RNA翻译(translation)生成体内各种蛋白质,行使特定的生物功能。翻译过程是在核糖体上进行的。这样,通过遗传信息从亲代传向子代,并在子代表达,使得子代获得了亲代的遗传性状。RNA也能通过复制过程合成出与其自身相同的分子。此外,生物界还存在由RNA 指导下的DNA合成过程,即逆转录,这一过程发现于逆转录病毒中。通过基因转录和翻译得到的蛋白质分子可以反过来作用于DNA,调控其它基因的表达。分子生物学的中心法则见下图,它说明遗传信息由DNA分子到RNA,再到蛋白质的传递过程。
DNA的复制
DNA的复制,即DNA的生物合成,就是指以原有DNA分子为模板按照碱基配对原则合成出相同分子的过程。DNA的自我复制是细胞周期中的重要事件。一旦复制开始,细胞当然就不能分裂。而DNA复制结束,就会触发细胞的分裂。
所有的DNA复制过程都是以半保留方式进行的。在DNA复制过程中,双螺旋解开,两条DNA单链都可作为模板在其上形成新的互补链,这样形成两个与亲代DNA结构完全相同的子代DNA链,并且由于子代DNA中一条链来自亲代DNA,另一条链是新合成的,故该复制方式称为半保留复制。1958年,Meselon和Stahl利用15N同位素标记大肠杆菌DNA最早证明了DNA的半保留复制。
在DNA的复制过程中,有许多酶参与,其中最重要的是DNA聚合酶。该酶以DNA链为模板,以dATP、dTTP、dCTP和dGTP四种脱氧核糖核苷三磷酸(由脱氧核糖核苷酸与焦磷酸PPi形成)为原料,按照碱基配对原则合成与模板DNA链互补的新链,这一过程即聚合反应。DNA聚合酶有两个特性,一是其作用的方向只能从5’-端往3’-端发展,二是它不能从头合成DNA链,它必须以一条单链作为模板,催化脱氧核糖核苷酸加到已有核酸链的3'-羟基端,即它的催化需要引物链的存在。有些种类的DNA聚合酶还兼有核酸外切酶的活力,在复制过程中行使切除引物等功能。DNA连接酶催化双链DNA切口处的5'-磷酸基和3'-羟基生成3',5'-磷酸二酯键,使两个DNA片段得以连接,此反应需供给能量(ATP)。
在DNA的复制过程中,先由多种蛋白质因子识别复制起点,在DNA解旋酶作用下,DNA双链解螺旋。双链解开后,单链结合蛋白(SSB)与单链DNA结合,使其稳定化,两条链各自成为复制的模板。引物合成酶与复制起始点局部DNA结合,合成与局部DNA链互补的引物,在DNA聚合酶的作用下,在引物3'-端加入脱氧核糖核苷酸(二者以磷酸二酯键相连)。以此类推,使DNA链不断延伸。两条链中一条模板链是3'→5'走向,在其上DNA能以 5'→3'方向连续合成,该模板链称为前导链;另一条模板链是5'→3'走向,在其上DNA也是从5'→3'方向合成,但是与解链方向相反,而且随着解链的推进,形成许多不连续的片段,最后再连成一条完整的DNA链,该链称为后随链。合成完成后,由另一类DNA聚合酶切除引物并填补切除后的空隙,缺口的两端由DNA连接酶催化生成磷酸二酯键,从而成为完整的DNA双链。
转录
转录是基因表达(gene expression)的第一个阶段。转录就是以DNA分子为模板,合成出与其核苷酸顺序相对应的RNA的过程,即DNA指导下的RNA合成。常见的RNA包括信使RNA(mRNA)、转运RNA(tRNA)和核糖体RNA(rRNA),它们都是在细胞核内以DNA为模板、按碱基配对原则合成的。
原核生物只有一种RNA聚合酶负责转录所有的基因,而真核生物有多种RNA聚合酶。RNA聚合酶需要以4种核苷三磷酸作为底物,并需适当的DNA作为模板。与DNA聚合酶不同的是,RNA 聚合酶无需引物,它可以直接在模板上合成RNA 链,合成方向为5'→3'。
真核细胞中的RNA聚合酶有Ⅰ、Ⅱ、Ⅲ三类,分别催化rRNA、mRNA和tRNA的合成。
在体外,DNA双链可同时进行转录,但在体内却只有一条链可用于转录,称为不对称转录。被转录的这条链称为模板链。
RNA链的转录起始于DNA模板的一个特定位点上,并在另一位点处终止,此间的转录区域称为转录单位。转录单位由指导转录起始部位的序列(启动子)和转录终止序列(终止子)以及编码蛋白质的序列(结构基因)三部分组成。原核生物的RNA聚合酶几乎不依赖其他蛋白质因子就能识别并结合到启动子DNA序列上,从而开始转录合成。但是,真核生物RNA聚合酶则必须依赖于一系列蛋白质因子才能识别启动子,并与之结合,然后才开始转录过程。这些蛋白质因子称为转录因子。转录因子分为两类:一类是结合在启动子核心部位如TATA盒的因子,称为普通性转录因子,如TFⅡA、TFⅡB、TFⅢA、TFⅢB等;另一类是结合在启动子上游和增强子部位的因子,称为转录调控因子,如SP-1、CTF、AT-1、Oct-1等。这些转录因子可以和特异性的DNA序列结合,也可以和其他转录因子相结合共同起作用。
转录过程分为起始、延长和终止三个阶段。在起始阶段,RNA聚合酶及相关转录因子识别DNA分子的启动子,并与之结合。此时,DNA分子双螺旋局部解开,解链范围仅限于与RNA 聚合酶结合的部位。聚合酶识别模板链,按照碱基配对原则催化最先掺入的两个核苷酸间形成磷酸二酯键。在延长阶段,RNA聚合酶在DNA模板链上沿3'®5'方向移动,RNA链以5'®3'方向延长,被转录过的DNA重新形成双螺旋结构。在终止阶段,RNA聚合酶移动至转录终止位点(终止子)时,聚合反应终止,新合成的RNA链释放出来,RNA聚合酶从DNA模板上脱落。终止子是转录的终止信号序列。
大部分的转录过程结束后,原初转录产物需经过特殊的加工处理,才具有生物活性。这里以mRNA为例,介绍基因的转录后加工过程。 一般情况下,原核生物的新生mRNA不必进行后加工处理,就能指导蛋白质的翻译。然而,真核生物中前体mRNA在细胞核合成后,还必须经过一系列复杂的加工过程并转移到细胞质内才能指导蛋白质的合成。(1)mRNA的5'-端形成特殊的帽子结构。用核糖核酸酶处理mRNA,发现它的5'-端核苷酸总是N7-甲基鸟苷酸(m7GPPPX),mRNA的5'-端的这种结构就叫帽子。不同生物体内,由于甲基化程度不同,可以形成几种不同形式的帽子。这一5'-端的帽子是在转录的mRNA链达20个核苷酸之前产生的,它可能与mRNA翻译及稳定性有关。(2)通过多聚腺苷酸化(polyadenylation),在3'-端加上多聚腺苷酸(poly A)尾巴。这一反应是在RNA末端腺苷酸转移酶催化下完成的。研究表明,poly A尾巴仅与mRNA由细胞核向细胞质的转移有关,而且对mRNA的稳定性及翻译效率有明显影响。(3)mRNA前体的剪接。真核生物的大多数基因都被间隔序列分隔而成为分裂基因,这些间隔序列即称为内含子。因为转录过程中内含子也被转录,所以前体mRNA须通过剪接(splicing)使编码区(即外显子)成为连续序列。对于不同的RNA,其内含子的剪接方式也不同,mRNA前体是采用SnRNP剪接方式。SnRNP是由数种SnRNA(small nuclear RNA)和几十种蛋白质构成的复合颗粒。mRNA前体的剪接过程如下:首先,在内含子左端切开,所产生的5'-端与3'-端上游30个核苷酸附近的CTGAC序列中的A形成5’、3’—磷酸二酯键,由此构成套索结构;接着,内含子的右端被切开,两外显子连在一起,套索内含子释放,并且很快在细胞内被降解,剪接即告完成。
翻译
蛋白质的生物合成是根据mRNA链上每三个核苷酸决定一个氨基酸的三联体密码规则,合成出具有特定氨基酸顺序的蛋白质肽链。蛋白质合成过程本质上是遗传信息的翻译过程,是基因表达的第二个阶段。mRNA是蛋白质合成的直接模板,因为合成过程实质上是将mRNA的核苷酸序列转换为蛋白质的氨基酸序列,是两种不同分子“语言”的转换,所以,把以mRNA为模板的蛋白质合成过程称为翻译。
由于DNA分子中只有4种碱基,而蛋白质中有20种氨基酸,显然,单个碱基不能为氨基酸编码。如果DNA序列中每两个相邻的碱基决定一个氨基酸残基,则只能表示42=16种氨基酸;如果三个相邻碱基对应一个氨基酸,那么,所能表示的氨基酸有43=64中,可以满足20种氨基酸的编码需要。因此,mRNA序列上三个相邻的碱基组成一个密码子(Codon),或称三联体密码,一个密码子对应一种氨基酸。表2.4列出了编码20种氨基酸的所对应的密码子。
遗传密码的基本特征如下:
(1)密码无标点符号。即两个密码子之间没有任何起标点符号作用的密码子加以隔离。阅读密码必须按照一定的读码框架(reading frame),从一个正确的起点开始,逐个顺次向下阅读,直到终止信号处停止。若插入或缺失一个碱基,就会使这一碱基之后的读码发生错误,这种错误称为移码。
(2)密码的简并性。大多数氨基酸所对应的密码子不止一种,20种氨基酸中18个具有多个密码子,这一现象称为密码的简并性 (degeneracy)。由于密码子的简并性,在DNA复制和转录过程中发生错误而蛋白质的氨基酸序列却可以不受影响,尤其当突变(遗传物质发生改变)发生在密码子的第三位(最后一位)时更是如此。通常三联体密码子一个碱基的改变不足以引起所编码的氨基酸从一类变成另一类。这些改变一个碱基而对蛋白质没有影响的密码子位点称为简并位点,包括双重简并位点(twofold degenerate site,可以有两种选择)、四重简并位点(fourfold degenerate site,可以任取一个碱基)。突变总是导致蛋白质氨基酸序列发生替换的密码子位置称为非简并位点(nondegenerate site)。在编码序列水平上不导致蛋白质氨基酸序列发生改变的核苷酸替换称为同义替换(synonymous substitution),而使氨基酸发生变化的替换称为异义替换(nonsynonymous substitution)。遗传密码是非常可靠的,可以尽可能的减少由于基因中核苷酸序列错误而导致所编码氨基酸出错的程度。
(3)线性、不重叠。三个碱基组成一个密码,密码之间是否重叠?例如,对于序列AAGGUCUUC,不重叠的三个密码子是AAG、GUC、UUC,如果重叠一个碱基,则形成四个密码子:AAG、GGU、UCU和UUC。到现在为止,还没有发现重叠密码。
(4)特殊密码子。在64个密码子中,有3个不编码(UAG、UAA和UGA),这三个密码子的功能并非指导核糖体插入一个特定的氨基酸,而是引起翻译的终止,所以叫做终止密码子(stop codon)。此外,还有一个(AUG)既是甲硫氨酸的密码子,又是多肽合成的起始密码子(start codon)。
(5)密码的通用性。各种高等和低等的生物(包括病毒、细菌和真核生物)基本上共用同一套密码。最初遗传密码的解读是在体外大肠杆菌无细胞蛋白质合成体系中得到的,迄今为止,除线粒体等细胞质基因外,反映编码规律的遗传密码表几乎是通用的。
蛋白质肽链的合成是从氨基端(N-端)逐个加入氨基酸,直至羰基端(C-端)最后一个氨基酸为止。多肽链合成的场所就是核糖体,一个细菌细胞中大约有20000个核糖体,而真核细胞里则多达数百万个。它们的结构大同小异,都是由复杂的rRNA骨架和许多蛋白质组成的复合物,由大小两个亚基组成。多肽链在核糖体上的合成过程可划分为起始、链延伸和终止三个阶段。下面以原核生物为例,介绍多肽合成的过程。
(1)起始阶段:mRNA先后与核糖体的30s亚基和50s亚基相结合,形成有生物学功能的70s起始复合物。这时,携带有甲酰甲硫氨酸的tRNA(fMet-tRNAf)占据了核糖体上的肽酰位点(P位),空着的氨酰位点(A位)准备接受另一个氨酰tRNA。
(2)肽链的延伸:可分为三步进行,( i )由A位上mRNA密码子规定的氨酰-tRNA进入核糖体并结合在A位上;( ii )此时A位和P位上都结合有氨酰-tRNA(延伸时P位上为肽酰-tRNA),肽酰基从P位到A位,并形成新的肽链;( iii )核糖体沿mRNA(5'→3')作相对移动,肽酰-tRNA又从A位移到P位,失去氨酰基的tRNA从核糖体上脱落,A位待下一个氨酰-tRNA进入,开始新的一轮肽链延伸反应。
(3)终止阶段:mRNA的终止信号进入核糖体,释放因子(辅助蛋白质合成终止的因子)可完成终止信号的识别。P位上tRNA与肽链之间的酯键在水解作用下断裂,肽链从核糖体上脱落。随后,mRNA、tRNA 与核糖体分离,核糖体又解离为大小亚基,可重新聚合参与另一条肽链的合成。
真核生物的蛋白质合成与上述过程略有不同。起始复合物的大小为80s,起始tRNA携带的是甲硫氨酸(原核生物中的是N-甲酰甲硫氨酸)。此外,合成中涉及到的蛋白质因子较多,合成机制更为复杂。
mRNA的反转录与cDNA
人们最初认为遗传信息只能从DNA传到mRNA,再从mRNA翻译成蛋白质,通过蛋白质来表达遗传信息,实现生物体的各种功能。然而,在1970年,科学家发现有些RNA病毒会将RNA反转录成DNA,并且找到了促成这一过程的反转录酶。这使得人们扩展了对中心法则的认识。反转录酶可以将mRNA反转录为DNA,而这样的DNA分子里没有内含子。这样的DNA分子称为互补DNA,或cDNA。
真核生物每个细胞里都有全套染色体和遗传信息。然而,在不同的组织和环境中,只有一部分基因被表达为蛋白质。所有要表达的基因,都有相应的mRNA被转录和加工。原则上可以提取一定组织细胞中的全部mRNA,将它们反转录成稳定而便于保存的cDNA,形成cDNA文库。
对遗传信息流的再认识
遗传信息从DNA流向RNA,再流向蛋白质,这样的信息流动过程依赖于酶和其他蛋白质与核酸的相互作用。同样,DNA和RNA的复制也依赖于聚合酶和其它蛋白质与核酸模板的相互作用。在生命进化的早期还没有酶时,核酸分子又是如何复制的呢?这个难题可能的答案是:RNA分子和蛋白质一样具有酶的功能。这一发现使我们看到:在DNA和蛋白质出现之前,生命进化的早期有一个RNA世界。RNA分子先催化其本身的复制,并发展出许许多多酶的活性。接着,RNA分子开始合成蛋白质,蛋白质成了更高级的酶,因为它们有20个侧链,比 RNA的4个碱基更为多样化。最后RNA反转录形成了DNA,从而DNA代替RNA作为遗传物质,并且DNA的双螺旋结构比单链的RNA更加稳定。这样,留给RNA的作用就一直保留到现在,即RNA在遗传信息的传递过程中作为中间媒介。