基因组(genome)是细胞或生物体的全套遗传物质,或载有遗传信息的全体核酸,包括所有染色体上的核酸,对于真核生物,其基因组还包括线粒体上的核酸。各种生物体之间存在着差异,这种差异正是由基因组所决定的。各种生物体基因组的大小变化很大,最小的只有5000bp(base pair),如最简单的病毒,最大的有1011bp,如一些高等植物。基因组的大小与生物体的复杂性没有直接的关系。基因组中某些成分的位置并非一成不变,而且同种生物的不同个体之间,其基因组大小或基因数目也不是绝对固定的,甚至由于基因组结构变化还会导致功能的变化。尽管如此,各类生物的基因组仍然有着基本的结构特点。人类基因组由3.2´109bp的DNA组成,包括细胞核染色体基因组和细胞质内线粒体基因组。细胞核染色体基因组中大约有一半为不同的重复序列,含基因2.5万~3.5万个。基因组控制着生物体的生长发育,控制着生命活动。要想认识生物的本质,就必须首先认识基因组,掌握基因组的所有核酸序列,解析基因组的全部遗传信息,理解遗传信息的组织结构及其在生物体内的表达。
染色体结构
染色体(chromosome)是基因的载体,染色体包括DNA和蛋白质两部分。原核生物的染色体实际上就是一个裸露的DNA分子,其中只含有极少量的蛋白质。真核生物的染色体位于细胞核的核仁内,由DNA和蛋白质结合而成,DNA和蛋白质完全融合在一起,其比例约为1:2,蛋白质在染色体的结构中起着重要的作用。每条染色体所携带的DNA量是一定的,但是不同染色体或不同物种对应染色体之间变化很大,从上百万到几亿个核苷酸不等。此外,同一物种每条染色体的蛋白质种类和含量也是十分稳定的。由于细胞内的DNA主要集中在染色体上,所以说遗传信息的主要载体是染色体。真核生物由于富含DNA,因而具有原核生物所没有的许多潜能。
作为遗传物质,染色体具有几个明显的特征:(1)分子结构相对稳定;(2)能够自我复制,使亲代和子代之间保持连续性;(3)能够指导蛋白质合成,从而控制整个生命过程;(4)能够产生可遗传的变异。
真核细胞染色体上的蛋白质主要包括组蛋白和非组蛋白。组蛋白是一类较小而带有正电荷的核蛋白,与DNA有很高的亲和力。组蛋白是染色体的结构蛋白,它与DNA组成核小体。由DNA和组蛋白组成的染色质(chromatin)纤维细丝是许多核小体连接而成的念珠状结构。人们发现,染色质DNA的杂交解链温度比自由DNA的高,说明在染色质中DNA极可能与蛋白质分子相互作用。组蛋白在进化上极端保守,不同生物的组蛋白的氨基酸组成十分相似。非组蛋白的种类较多,包括酶类,如RNA聚合酶、包装蛋白、加工蛋白、与细胞分裂有关的收缩蛋白、骨架蛋白、核孔复合物蛋白以及与基因表达有关的蛋白等。在DNA方面,真核细胞基因组的最大特点是它含有大量的重复序列,而且功能DNA序列大多被不编码蛋白质的非功能DNA序列隔开。
真核生物染色体由一层核膜所包围,而在原核生物中,此膜和其他内膜皆不存在,由此引发真核基因和原核基因在表达上的重要差异,即真核生物的转录和翻译在时间和空间上是分隔的,而原核生物的转录和翻译是紧密偶联的。
在真核细胞染色体的末端有一个特殊的结构,即端粒(telomere)。端粒是一段由DNA和蛋白质形成的复合体。端粒的DNA序列相当保守,其DNA一般由多个串联在一起的短寡核苷酸序列组成,每一段短寡核苷酸序列的长度为5~8bp。可以用如下形式表示端粒:
5’-(TxGy)n
3’-(AxCy)n
其中,x、y是碱基数,一般为1~4。碱基对的成分因种属而异,例如人和脊椎动物为T2AG3,纤毛原生物为T4G4,四膜虫为T2G4,酵母为TG1-3。n是短序列的重复次数,可以达数千。端粒的长度在不同的生物中变化较大,小鼠的端粒DNA达150kb(kilo base),人类的端粒DNA约为5~15kb。端粒的功能如同它的序列一样,相当保守。端粒主要有下列几种功能:(1)保证线性DNA的完整复制;(2)保护染色体的末端;(3)决定细胞的寿命。
正常人类体细胞有46条染色体,其中44条(22对)为常染色体,另外两条为性染色体。性染色体在女性中为XX型,在男性中为XY型。染色体在生殖细胞中均为23条,其中卵细胞为22+X,精细胞为22+Y或22+X。
染色体在细胞周期中持续经历着凝聚和舒展的周期性变化,在细胞分裂中期,染色体达到凝缩的高峰,最有利于实验观察。每个中期染色体都由两条染色单体所组成,每条染色单体各含一个DNA双螺旋分子,两条染色单体仅在着丝点处(即着丝粒)互相连接。该处的染色体缩窄,故又称主缢痕。着丝粒是细胞在有丝分裂和减数分裂时染色体与由微管蛋白组成的纺锤丝相连接的部位,与细胞分裂时染色体的运动有关。失去着丝粒的染色体片段通常因为不能在细胞分裂后期向两极移动而丢失。着丝粒将染色体分成两臂,一个完整的染色体至少包括一个着丝粒、两端染色体臂和端粒。
染色体臂是染色体的主体,它所包含的染色质可以分为常染色质(euchromatin)和异染色质(heterochromatin)两种。常染色质占染色体的绝大部分,具有染色质螺旋的正常周期,在细胞间期解螺旋,形成松散的结构,而在细胞分裂时形成螺旋,在中期时达到螺旋高峰。常染色质中大约有10%处于更为开放的疏松状态。异染色质是处于密集状态的局部区域,在细胞间期呈较大的深染团块。它在细胞周期中的凝聚行为不同于常染色质,即与常染色质不同步地呈螺旋现象。
当细胞有丝分裂时,每一条染色体都复制生成一条与母链完全一样的子链,形成同源染色体对。每个子代细胞接受同源染色体对中的一条,从而含有与亲代完全相同的染色体。在有性生殖的细胞减数分裂过程中,情况要复杂一些,性细胞(子细胞,包括卵细胞和精细胞)是由性母细胞通过减数分裂而来的,只含有亲代细胞染色体的50%,因此只含有50%的遗传信息。
用荧光染料阿的平染色分裂中期的染色体,在荧光显微镜下可以看到不同的染色体上出现发荧光横带,称为G带。由于荧光染料容易消退,现在研究带型更多使用的是一种永久性染色技术,即吉姆萨氏染色。各个染色体的带型是稳定的,因此,根据带型即可以区分不同的染色体。不同物种染色体的带型各有特点。然而,从生物进化上看,带型又是一个相当保守的特征。
基因
基因的概念随着遗传学、分子生物学、生物化学等领域的发展不断完善。从分子生物学角度看,基因是合成有功能的多肽或RNA分子所必须的所有核酸序列,除了为蛋白质或RNA编码的序列之外,还包括控制基因转录的序列。一般来说,基因是负载特定生物遗传信息的DNA分子片段,在一定条件下能够表达这种遗传信息,产生特定的生理功能。有的生物基因是RNA分子。
基因具有几个重要的特征:
(1)基因是一种相对独立的遗传信息单位,这些信息单位可以通过各种方式在生物个体之间进行重新组合,并向后代传递;
(2)基因是一段DNA分子,遗传信息贮存在DNA序列之中;
(3)基因的信息内容通过相应的形式表现出来,即指导合成蛋白质或RNA,进而产生生理功能,或影响其他基因的表达。
按照功能可以将基因分为结构基因和调控基因。结构基因可被转录形成mRNA,并被翻译成多肽链,构成各种结构的蛋白质、酶和激素。调控基因是指某些可调节、控制结构基因表达的基因,其突变可能影响一个或者多个基因的功能,导致蛋白质产物量的改变。此外,还有一些只转录而不翻译的基因,如核糖体RNA基因,也称为rRNA基因,专门转录rRNA。同样,也有转运RNA基因,称为tRNA基因,专门转录tRNA。
在DNA链上,从基因的起始密码子开始到终止密码子为止的一个连续编码序列叫做开放阅读框(open reading frame, ORF)。
有些DNA序列与功能性基因密切相关,但由于缺失、插入和无意义突变,在转录、翻译等环节出了问题,使它们丧失了基因功能。这些基因可能发生片段丢失,或缺失了某些调控信号,不能被转录;或缺失了剪切信号,转录产物不能被正确剪切;或在编码区产生终止信号,产生不完整的肽链。这些基因统称为伪基因或者假基因。
原核生物的基因组
原核生物的基因组比较小,DNA量低。原核生物基因组的许多信息都是为了维持细胞的基本功能,如构造和复制DNA,产生新蛋白质,以及获得和存储能量。在原核基因组中,基因分布的密度非常高,其中的DNA分子的绝大部分是用来编码蛋白质的,只有非常小的一部分不转录,这点与真核生物DNA分子不一样。
细菌含有染色体和染色体外的质粒DNA。大肠杆菌的基因组DNA是单个双链环状DNA分子,有些细菌还含有存在于细胞质中的小型环状双链DNA。染色体外的DNA也可能含有遗传信息,可以进行自我复制,并将遗传信息传递给子代细胞。
基因表达是从转录开始的,借助RNA聚合酶生成基因的RNA拷贝。实际上,原核生物的RNA聚合酶由几种不同的蛋白质组装而成,每种蛋白质在酶的功能中扮演独特而重要的角色。σ蛋白是负责识别启动子的亚单元,不同的σ因子形成了不同的RNA聚合酶,这是决定细胞开放和关闭基因表达的直接原因。例如,大肠杆菌中有7个不同的σ因子,它们帮助RNA聚合酶结合到DNA上-35位和-10位的序列。大肠杆菌在响应热休克而表达相应基因时,就通过含σ32的RNA聚合酶来搜出那些带有σ32启动子的基因。大肠杆菌中约有70%的基因在正常的生长和发育过程中都要表达,这些基因由含σ70的RNA聚合酶转录。RNA聚合酶识别基因启动子能力的高低直接关系着它启动转录过程的难易。由特定σ因子识别的-35位和-10位序列通常称为一致序列(consensus sequence)——本质上是含相同σ因子的RNA聚合酶转录的基因在相应位置上最常出现的核苷酸片段。基因的-35位和-10位序列与一致序列越匹配,RNA聚合酶就越有可能与启动子结合以开启转录。
许多基因的蛋白质产物需要与其它基因的蛋白质产物结合在一起才能发挥作用。在原核生物DNA序列中,编码蛋白质和RNA的几个基因往往聚集在基因组的一个连续区域,形成一个功能单位或转录单元,它们可以被一起转录为含多个mRNA的分子,形成多顺反子mRNA。多个功能相关的基因共享一个启动子,这些基因排列成的结构称为操纵子(operon)。这提供了一个简捷的方法,保证当其中一个基因被转录时,其它具有相关功能的基因也被转录。一个典型的例子是乳糖操纵子,它由细菌细胞中三个涉及乳糖代谢的基因组成(β半乳糖苷酶,乳糖透酶,乳糖乙酰基转移酶)。操纵子的转录合成了一个长的多顺反子(polycistronic)RNA分子,其中包含了核糖体翻译所有3种蛋白质所需要的编码信息。
操纵子学说是关于原核生物基因结构及其表达的学说。操纵子是基因表达的协调单位,其模型中的遗传组分包括一个调节基因、一个操纵基因及一组结构基因(编码涉及细胞结构和代谢的蛋白质的基因)。调节基因能产生作用于操纵基因的阻遏物(阻遏物是一种蛋白质)。操纵基因靠近它所控制的结构基因,阻遏物与操纵基因的结合能阻止结构基因的转录。启动子、操纵基因及与其相关的结构基因一起称为操纵子,如图2.10所示。典型的大肠杆菌乳糖操纵子包括三个结构基因,即Z、Y、A。这三个酶的编码区域头尾相连,排在一起。操纵基因o及启动子位点p形成操纵子模型的另外一部分。i代表调节基因。
正如通过RNA聚合酶识别紧接启动子下游的转录起始位点来开启转录一样,绝大部分原核生物操纵子(大于90%)也包含标志转录终止的特异性信号,称作固有终止子(intrinsic terminators)。固有终止子有两个主要的结构特征:(1)包括反向重复的核苷酸序列(即序列5’-CGGATG|CATCCG-3’,其中包含了以“|”为中心的反向重复序列,因为对于5’-CGGATG-3’,按照其互补链的读法为5’-CATCCG-3’);(2)紧跟着反向重复序列有连续6个左右的尿嘧啶。虽然一般认为典型的RNA分子是一条单链,但由于反向重复序列中的分子内碱基配对作用,RNA分子有可能形成稳定的二级结构。RNA二级结构的稳定性与碱基互相配对的反向重复序列(不一定完全配对)的长度以及GC数目(相对于AT)直接相关。就固有终止子而言,每个反向重复序列的典型长度为7至20个核苷酸,并且富含GC。
作为一种特别的生物体,病毒(包括嗜菌体)的核酸分子量最小。由于病毒依靠宿主细胞的许多功能来复制自身,所以它们所携带的遗传信息要比宿主细胞少得多。几乎所有植物病毒、某些细菌病毒和动物病毒的基因组都是由RNA组成的,一般特别小。最小的病毒基因组仅有约5kb,如单链嗜菌体φX174;最大的有200 kb左右,如T2嗜菌体。病毒基因组虽然小,但是它们所编码的蛋白质种类却不少。有些病毒的基因组不够编码自己的蛋白质,于是采用重叠基因的办法。
真核生物的基因组
真核生物在各个方面都要比原核生物复杂得多,包括丰富的内部膜系统、复杂的遗传信息表达系统等。在基因组方面,真核生物基因组的规模远大于原核生物基因组,组织复杂,信息含量高。在整个DNA序列中,蛋白质编码区域仅占一小部分,而非编码序列则占了很大一部分。真核基因结构也远比原核基因结构复杂、多变。真核细胞含有细胞器,例如线粒体或叶绿体。这些细胞器中也含有DNA,但是它们不同于细胞核基因组DNA,它们通常是很小的环状双链DNA分子。
1、真核细胞的基因结构
大多数真核基因都是由蛋白质编码序列和非蛋白质编码序列两部分组成的。基因中的编码序列称为外显子(exon),而基因中的非编码序列称为内含子(intron)。在一个结构基因中,编码某一蛋白质不同区域的各个外显子并不是连续地排列在一起的,而是常常被长度不同的内含子所隔离,形成镶嵌排列的断裂方式,所以,真核基因有时被称为分裂基因。不同基因拥有内含子的数量和大小相差非常悬殊,如胶原蛋白基因,长约40kb,至少具有40个内含子,其中短的只有50bp,长的可达到2000bp。许多真核基因具有大量的有时是非常大的内含子,例如,与人类囊性纤维症有关的基因,含有24个内含子,加起来的长度超过1Mb。而少数基因,如组蛋白,根本不带内含子。目前尚不清楚内含子的生理功能。
许多外显子为蛋白质分散的结构和功能单位编码,例如,肌红蛋白和血红蛋白基因的中央外显子为一个与血红素结合的区域编码,此区域能可逆地与O2结合。其他外显子专一地编码a螺旋片段,这些片段使蛋白质插在细胞膜中。蛋白质的一个结构域可能是由单个外显子编码。有一种假说认为:在进化过程中,新蛋白质的出现是由于外显子的重新排列,这些外显子编码分散的结构单位、结构部位和催化部位。外显子的混合是产生新基因的迅速而有效的方法。分裂基因有另一个优点,即通过不同方式的剪接而新生的RNA,可能产生一系列相关的蛋白质,这组蛋白质是根据一个发育程序而发生的一个基本特性的变异。
真核基因分裂结构的一个重要特点是外显子-内含子连接区是具有高度保守性和特异性的碱基序列。外显子-内含子连接区是指外显子和内含子的交界,又称边界序列。外显子-内含子连接区虽然很短,但却是高度保守的。这一保守序列(conserved sequence)与剪切机制密切相关,它是RNA剪切的信号序列。
序列分析表明,几乎每个内含子5'-端起始的两个碱基都是GT,3'-端最后两个碱基总是AG。由于这两个碱基序列的高度保守性和广泛存在性,有人将它称为GT-AG法则,即:5'-GT……AG-3'。由于内含子两端的接头序列不同,因此,可定向标明内含子的两个末端,根据剪切加工过程沿内含子自左向右进行的原则,一般将内含子5'-端接头序列称为左剪切位点,3'-端接头序列称为右剪切位点。有时候,也将前者称为供体位点(donor site),将后者称为受体位点(acceptor site)。
外显子-内含子在连接区的保守序列几乎存在于所有高等真核生物基因中,这表明在这些基因中可能存在着一个共同的剪切机制。但是,在线粒体基因中不存在这类保守序列,这暗示还可能存在不同类型的加工过程。
一个完整的基因,不但包括编码区域,还包括5'-端和3'-端两侧长度不等的特异性序列。虽然这些序列不编码氨基酸,却在基因表达的过程中起着重要的作用。所以,严格的“基因”,这一术语的分子生物学定义是:产生一条多肽链或功能RNA所必需的全部核苷酸序列。真核基因的一般结构如下图所示。
RNA聚合酶在基因表达起始阶段和基因5'-端上游区域的某一段核酸序列结合,然后开始转录,合成基因的RNA拷贝,这一段核酸序列称为启动子(promoter)。启动子决定了DNA转录的方向、速度和准确性。RNA聚合酶必须准确识别基因转录的起始位置。RNA聚合酶在寻找基因的起点时不能寻找任意一个特定的核苷酸,因为在细胞的DNA分子中,单一核苷酸出现的频率非常高。然而,核苷酸间的特定组合却不容易随机出现,并且,涉及的核苷酸的数目越多,该组合出现的几率变得越小。如果所有核苷酸以相同概率出现,那么特定核苷酸串单独出现的概率为P=(1/4) n,n是核苷酸的数目。原核生物的RNA聚合酶扫描整条DNA ,寻找标记基因起点的约为13个核苷酸长度的特定核苷酸序列(一个核苷酸是转录起始位点,6个核苷酸位于距起始位点上游10个碱基处,另6个核苷酸位于起始位点上游35个碱基处),这些启动子序列之间的相对位置固定。由于多数原核生物的基因组只有几百万个核苷酸,这些启动子序列结合在一起的几率约为七千万分之一,这足以让RNA聚合酶可靠地、唯一地识别基因的起始位置。真核生物的基因组比原核生物大几个数量级,相应地,真核生物的RNA聚合酶要识别更为复杂和更长的启动子序列,以便也能可靠地识别基因的起始位置。
通过对许多基因的启动子进行解析、比较,发现了相当保守的启动子序列。如前面所述,对于原核基因,在转录起始点上游10bp处,有一个嘌呤盒(box)序列,即T80A90T45A60A50T96。这里,字母右下角的数字为相应碱基出现的频率。另外,在转录起始点上游35bp处,有一段保守序列:T82T84G78A65C54A45。对于真核基因,在转录起始点上游30bp处,有TATA盒(TATA box),在上游80bp处有一个CAAT盒(CAAT box),而在上游80bp~110bp附近含有GCCACACCC或GGGCCGGG序列,这称为GC盒(GC BOX) 。
启动子的定义是相对于转录起始点上游有相对固定位置的DNA序列,包括TATA盒、CAAT盒和GC盒,一般在从转录起始点到上游150bp这段范围内。这些上游保守序列统称为上游启动子元件(upstream promoter element,UPE)。
TATA盒和其他两个UPE的作用不同。前者的主要作用是使转录精确地起始,如果除去TATA盒或进行突变,转录产物下降的相对值不如CAAT盒或GC盒突变后的明显,但发现所获得的RNA产物的起始点不固定。CAAT盒和GC盒主要控制转录的起始频率,基本不参与起始位点的确定。CAAT盒对转录起始频率的影响最大,该区域任意一个碱基的改变都将极大地影响靶基因的转录强度,而启动区其他序列中一两个碱基的置换对转录强度则没有太大的影响。此外,在TATA盒和相邻的UPE之间插入核苷酸也会使转录减弱。尽管上述三种UPE序列都有着重要的功能,但并不是每个基因的启动子区都包含这三种序列。
启动子对转录固然重要,但是启动子上游部位的序列是否和转录就没有关系呢?人们在研究SV40病毒时发现,启动子上游的某些序列如果发生变化,则可能大大降低转录的活性。这些序列在正常的情况下能对转录起增强作用,所以称为增强子(enhancer)。增强子一般能使转录频率增加10~200倍。
增强子有几个显著的特征:(1)增强子的序列较长,可达数百个碱基对。有时是重复序列,其内部常含有一个核心序列“(G)TGGA/TA/TA/T(G)”。(2)作用距离比较远,可以远离它所作用的基因,达数千个碱基之远。(3)作用没有方向性:序列正反颠倒过来,同样起作用;(4)位置不固定:可以是在某个基因的5'-端上游,也可以是在3'-端下游,甚至可以在基因的内含子内。(5)增强子一般具有组织或细胞特异性。(6)增强子的活性与它在DNA双螺旋结构中的空间方向性有关。
除了启动子和增强子之外,还有一种负调控元件,即沉默子(silencer)。通过沉默子可以抑制基因的表达,或对基因进行有选择性的表达。
2、单拷贝基因和基因家族
在基因组中仅出现一次的基因称为单拷贝基因。单拷贝基因多是编码蛋白质的基因,一般比较复杂。这些基因往往是断裂基因,即编码区域非连续。在真核生物中也存在如同原核生物操纵子结构的转录单位,其转录出来的初级转录产物可以通过不同的拼接方式产生一种以上的蛋白质,即一段DNA序列可编码多种蛋白质。
有25%~50%的真核细胞编码蛋白质的基因是以单个基因存在于基因组中,而其余编码蛋白质的基因都属于两个或两个以上相似基因构成的基因家族。在进化过程中,从一个祖先基因分歧产生多个基因,这些基因构成一族结构和功能上相关的基因群,它们或聚集在一起,或分散在基因组中。这种来自于同一个祖先基因,编码相似而不完全相同的蛋白质的一组基因被称为基因家族。被这些基因编码的蛋白质称为蛋白质家族。基因家族有大有小,少则仅有几个基因,多则有数百个基因。a-珠蛋白和b-珠蛋白对应的基因家族是研究得最多的基因家族。
3、重复序列
真核生物细胞DNA中存在着大量的重复序列,对于脊椎动物尤其如此。重复序列大致可以分成三类,即低度重复序列、中度重复序列和高度重复序列。
中度重复序列的重复次数在10~105之间,占总DNA的10%~40%,如小鼠基因组的中度重复序列占20%,果蝇的占15%。
高度重复序列的重复次数大于106,基本的重复序列长度从几个碱基到几百个碱基或更长,占基因组的10%~60%。高度重复序列按其长度可分为:(1)卫星DNA(satellite DNA):重复序列的长度在5~200bp,这些序列聚集在一起,串联排列,总长度可达100mb(mega base)。它们在人群中的多态性不强。(2)小卫星(minisatellite)DNA:重复序列的长度从5个bp到几十个bp,串联排列,总长度在0.5~30kb之间。这类重复序列在人群中存在高度的多态性。(3)微卫星(microsatellite)DNA:重复序列的长度在2~6bp之间,也有高度的多态性。
4、遗传和进化
遗传是生物的一个普遍特征,正因为有了遗传,物种才能稳定下来,才能得以延续。
人们通常将基因组看成是静止的,仅在进化规模上考虑到它的变化,其实,基因组的结构不是完全静止的,是有变化的。生物界普遍存在着变异,每一代都有变异,没有两个生物个体是完全相同的。可遗传的变异包括基因突变、基因重组和染色体畸变。基因突变指的是基因的DNA序列发生突变。目前对分子进化了解最多的是点突变(point mutation),或者是核酸序列中的单碱基突变。单碱基突变是指一个碱基变化为另一个碱基,或者是在序列中插入一个新的碱基,或者是删除原有的一个碱基。在编码区域中的碱基的插入或删除将导致基因的阅读框移码,使原来的密码子被打乱,从而使基因的转录出现异常。
许多突变对于生物体的影响并不是很大。一般出现在基因内含子中间部分的突变不造成影响,但是,如果突变发生在内含子边界,则可能影响转录剪切过程。如果突变发生在密码子第三位,则由于密码子的简并性,在蛋白质水平上不会造成多大的影响。即使是一个造成蛋白质序列变化的突变,其影响往往也是中性的。当然,有些点突变是致命的,而有些点突变将导致疾病。点突变很少是有益的。
基因重组和基因移动是生物进化的动力,具有重要的生物学意义。所谓基因重组,是指来源于两个或两个以上不同亲本的DNA序列组合成一条新的基因DNA序列。基因重组是生物界的普遍现象。同源重组是任何具有一段同源序列的两个基因DNA序列之间的交换。发生同源重组的条件是两个DNA分子之间存在同源序列,与实际的碱基序列次序无关。只要它们相似,而且相似区段越长,重组发生的频率就越高。若同源序列太短,则很难发生重组。同源重组也是DNA损伤修复的重要机制。当损伤的一条链需要修复,而又不能用另一条互补链作为修复模板时,就要用另外的同源序列,利用同源重组修复机制来修复被损伤的链。另一种重组方式是位点特异性重组,它发生在位点特异性的短序列区,重组时发生精确的切割反应和连接反应,DNA既不丢失,也不合成。在基因组中还存在一类可移动的基因序列,它们可以从染色体的一个部位转移到同一条染色体或另一条染色体上某一新的位置。一个基因通过各种方式从一处移动到另一处,称为基因移动,可以移动的基因称为移动基因。移动基因一般通过转座子的形式进行移动。重组和移动可产生新的序列和功能,或改变原有序列的功能。
染色体可能发生畸变,从而使得遗传物质发生变化。染色体畸变包括染色体的丢失、易位、移位等。这些变化实际上也是DNA分子的变化,如染色体的部分丢失,实际上就是DNA分子的一部分丢失。
变异是产生进化的基本条件。人们已经逐步了解进化的分子机制,通过对相关分子进行序列比较分析,可以得到物种之间的进化关系。另一方面,相关分子之间的相似性和差异提供了关于分子结构和功能的重要信息。一般假设具有相似序列的基因或蛋白质是同源的,它们具有相似的结构和相近的功能;但是,也存在反例。
分子进化同样包括选择和继承。继承性要求亲代的基因能够传递给子代,而选择性则表明有益的突变将被保留下来。
5、人类基因组
人类基因组的编码区域不到所有DNA序列的3%,基因数为2.5万~3.5万。人类基因组中重复序列占了很大一部分,约为50%,这些重复序列可能具有一定的功能,但也可能没有功能。可以将人类基因组的重复序列分成4种:(1)短散布元素(SINEs);(2)长散布元素(LINEs);(3)长终端重复元素(LTR);(4)DNA 转座子(transposons)。基因组剩余的DNA序列包含启动子、转录调控序列及其他未知特性的序列。