2012/10/01评论5,322

生物信息学教程系列

第五章

5 分子进化

分子进化钟的发现与中性理论的提出，极大地推动了进化尤其是分子进化研究，填补了人们对分子进化即微观进化认识上的空白，推动进化论的研究进入分子水平，并建立了一套依赖于核酸、蛋白质序列信息的理论方法。分子进化研究有助于进一步阐明物种进化的分子基础，探索基因起源机制，从基因进化的角度研究基因序列与功能的关系。

5.1 分子进化钟与中性理论

60年代早期“分子进化钟”的发现与60年代末期“中性理论”的提出是本世纪进化学的重大事件，是古老的进化学与新生的分子生物学两者“杂交”的产物。它们的相继问世极大地推动了进化尤其是分子进化研究，填补了人们对分子进化即微观进化认识上的空白，并在生物医学等领域产生了广泛影响。

随着不同生物来源的大量蛋白质序列的确定，Zucherkandl等发现：某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系，进而将分子水平的这种恒速变异称为“分子钟”。

支持进化钟存在的证据来自哺乳动物与其它脊椎动物诸如血清白蛋与转铁蛋白等的免疫学（如微量补体固定）定量比较。人们发现多肽间的免疫距离（如抗原性）与其氨基酸取代百分数成良好的线性相关，如鸟溶菌酶、哺乳动物RNase、细胞色素C与白蛋白、大肠杆菌色氨酸合成酶等。虽然这种相关性的分子基础尚不清楚，但这种客观存在经过反复验证后是不容置疑的。免抗血清由此成为初步估算球形单体蛋白间序列差异的有效工具，但其适用范围0-30%的氨基酸差异。

自从进化钟假设提出之后，存在许多反驳它的相反事实与异议。这些异议主要针对序列进化的恒速。分子进化钟的最明显的例外之一是分子序列证据与化石证据在人类起源时间上的差异。60年代中期，许多人类学家认为人类在3000年前与我们最近的亲属-- 非洲猿分歧。根据分子钟假设，分歧3000万年的物种氨基酸序列差异的应达4-5%、非重复序列DNA差异应约为8%，但实测值分别为0.8%与1.1%。对这种6倍左右的差别有两种解释。许多人类学家倾向于怀疑钟的存在，并认为在高等灵长类中分子进化速率下降。总之，虽然大部分分子进化学家同意序列进化与分歧时间密相关，但进化是以年限还是以代限为刻度则仍有分歧与争议；而且因为纵多因素的影响，与进化钟相左的数据，无论是用氨基酸、核苷酸序列差异、免疫学距离，还是用DNA杂交复性等参数，均不断有所报道，其论争预计将继续下去。

自从60年代初发现分子进化钟--“分子进化速率在不同种系中恒定”以来，人们又陆续发现蛋白质中氨基酸的置换是随机而非模式性的；DNA在哺乳动物种系的总变异速率远远高于形态上的变异速率并远远超出人们的预期的大于0.5核苷酸/ 基因组/ 年；蛋白质电泳表明物种内存在大量的变异即广泛的种内多态性，且这些多态性并无可见的表型效应，与环境条件亦无明显相关。以上这些都是新达尔文主义与综合进化理论所难以解释的。

面对上述问题，日本群体遗传学家木村资生（Motoo Kimura）提出：(1) 进化过程中的核苷酸置换其绝大部分是中性或近似中性的突变随机固定的结果而不是正向达尔文选择的结果：(2) 许多蛋白质多态性必须在选择上为中性或近中性，并在群体中由突变引入与随机灭绝间两者的平衡维持。

上述论著问世遭遇到经典进化学家的强烈批判。他们认为新的分子生物学数据完全可以用新达尔文主义的原理来解释。直至现在，选择论者与中性论者的议争仍在继续。这两大学派的本质区别可通过它们各自对突变基因如何在物种内置换老基因这一进化过程的不同解释来洞悉。每一置换刚出现时在群体内均为稀有的突变等位基因，随后扩散至个群体并被固定，即频率达100%。选择论者认为：一个突变的等位基因在物种内扩散，就必需具有某些选择上的优势，如在选择上为中性，就必需与一选择上具优势的基因紧密连锁，通过“搭车”而达到较高频率。与此相反，中性论者认为：一些突变在没有任何选择优势的情况下也能自身在群体中扩散。如果一突变体在选择上等同于已存在的等位基因，其命运将取决于机会-随机，其频率存在上下起伏，因为在每代每一雌、雄个体所生的大量配子中只有很少数配子最终被“采用”以形成合子以及相应的个体，并出现在下一代中。在这种随机漂变（random drift）中，绝大部分突变等位基因随机丢失，但有一少部分在群体中被固定下来。如果中性突变在分子水平上普遍存在，且随机漂变在很长时间（如百万年）一直延续，群体的遗传组成将发生显著性改变。群体中出现的任何中性突变其最终固定的概率都等于其原始频率，其固定的平均时间四倍于有效群体的大小（它近似等于每一代参与繁殖的个体数，通常远小于物种的个体总数）。中性理论并非认为中性基因无功能，而仅是认为不同的等位基因在促进个体的生存与生殖方面是有等同的效果。此外，还需强调个体基因突变与群体基因置换的差别，因为只有后者才与分子进化相关。

自Zuckerkandl与Pauling的早期工作以来，已经知道在蛋白质进化中结构和化学性质上相似的氨基酸间的替换比不相似间的替换更为频繁。他们认为，这种“保守的”的替换看来只造成分子功能的微小改变，因而更容易“被自然选择接受”。同时他们指出，关于氨基酸残基的最重要性质是什么，“化学家和生物学家间显然没有同样的见解”。从中性学说的立场看，保守替换的性质，只需注意到两种氨基酸间的差异越小，它们等于选择等价而不是突变有害的概率就越大，就很容易加以解释。因此，选择上呈中性的替换在得类似的氨基酸间则概率越高，而这类氨基酸的进化替换由于随机遗传漂变则出现得更为频繁。

在阐明分子进化中突变型替换的保守性的同时，有越来越多的证据表明，功能上较不重要的分子或某一分子较不重要的部分，其进化（以突变型替换表示）比那些较重要的要快些。中性论和选择论间的差别，在它们对快速进化的分子（如血纤蛋白肽）或分子的某部分（如胰岛素原的C肽）进行解释时，可以最清楚地看出，按中性学说解释，它们在功能上不重要，因而大多数突变是中性的，突变通过随机漂变而迅速积累。另一方，选择论的解释是，快速进化的分子或分子的某部分或许有某些尚不知道的功能，并且通过积累许多由正达尔文选择产生的较微有利的突变，而经历了迅速的适应性方面的改善。这两种解释那一种更为恰当还有待积累更多数据以后才能判定。为了加深我们对分子进化机制的理解，很有必要研究突变型替换的模式与分子的三级结构和功能的相互关系。

综上，中性学说（或者更确切地说是中性突变-随机漂变假说）是分子生物学与群体遗传学交融的产物。它不象传统的综合理论（或新达尔文派的观点），它明确主张：进化中大多数突变型的置换，不是由于正达尔文选择，而是由选择上呈中性或近中性的突变型的随机固定所致。它还断言，分子水平上大多数种内遗传多态性，象以蛋白质多态性形式展现出来的那样，是选择上呈中性或近中性的，并靠着突变输入和等位基因的随机清除或固定这两者之间的平衡而在物种中维持。应该说，这一理论对于人们所认识的分子进化众多现象与规律的阐释比新达尔文更为科学，且提出的多项预测被随后的实验研究所证实。问题是，它作为一种更基本层次－分子水平的进化理论未能给更高层次的进化提供理性阐释与描写。中性论者过多地注目于与功能无关的分子进化，而忽视了与功能相关的分子进化现象与规律的探索，这恐怕是中性理论之所以能问世，但同时又先天性地带上无视宏观进化，对宏观进化束手无策这一天然缺陷的症结所在。

5.2 进化树

分子钟的发现对于进化研究具有十分重要的意义。它不仅能用于粗略估计不同类群生物间的进化时间，亦可用于构建进化树。实际上，分子钟发现不久，蛋白质序列分析即被广泛用于生物的长时进化研究。

根据蛋白质的序列或结构差异关系可构建分子进化树(evolutionary tree)或种系发生树(phylogenetic tree)。进化树给出分支层次或拓扑图形，它是产生新的基因复制或享有共同祖先的生物体的歧异点的一种反映，树枝的长度反映当这些事件发生时就存在的蛋白质与现在的蛋白质之间的进化距离。根据进化树不仅可以研究从单细胞有机体到多细胞有机体的生物进化过程，而且可以粗略估计现存的各类种属生物的分歧时间。通过蛋白质的分子进化树分析，为从分子水平研究物种进化提供了新的手段，可以比较精确的确定某物种的进化地位。对于物种分类问题，蛋白质的分子进化树亦可作为一个重要的依据。
构建进化树的方法包括两种：一类是序列类似性比较，主要是基于氨基酸相对突变率矩阵（常用PAM250）计算不同序列差异性积分作为它们的差异性量度（序列进化树）；另一类在难以通过序列比较构建序列进化树的情况下，通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。

序列进化树

构建序列进化树的主要步骤是比对，建立取代模型，建立进化树以及进化树评估。

1．建立数据模型（比对）

建立一个比对模型的基本步骤包括：选择合适的比对程序；然后从比对结果中提取系统发育的数据集，至于如何提取有效数据，取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入/删除序列（即所谓的indel状态或者空位状态）。

一个典型的比对过程包括：首先应用CLUSTALW程序，然后进行手工比对，最后提交给一个建树程序。这个过程有如下特征选项：（1）部分依赖于计算机（也就是说，需要手工调整）；（2）需要一个先验的系统发育标准（即需要一个前导树）；（3）使用先验评估方法和动态评估方法（推荐）对比对参数进行评估；（4）对基本结构（序列）进行比对（对于亲水氨基酸，推荐引入部分二级结构特征）；（5）应用非统计数学优化。这些特征选项的取舍依赖于系统发育分析方法。

2．决定取代模型

取代模型既影响比对，也影响建树；因此需要采用递归方法。对于核酸数据而言，可以通过取代模型中的两个要素进行计算机评估，但是对于氨基酸和密码子数据而言，没有什么评估方案。其中一个要素是碱基之间相互取代的模型；另外一个要素是序列中不同位点的所有取代的相对速率。还没有一种简单的计算机程序可以对较复杂的变量（比如，位点特异性或者系统特异性取代模型）进行评估，同样，现有的建树软件也不可能理解这些复杂变量。

3．建树方法

三种主要的建树方法分别是距离、最大节约（maximum parsimony, MP）和最大似然（maximum likelihood，ML）。最大似然方法考察数据组中序列的多重比对结果，优化出拥有一定拓扑结构和树枝长度的进化树，这个进化树能够以最大的概率导致考察的多重比对结果。距离树考察数据组中所有序列的两两比对结果，通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大节约方法考察数据组中序列的多重比对结果，优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。

距离方阵方法简单的计算两个序列的差异数量。这个数量被看作进化距离，而其准确大小依赖于进化模型的选择。然后运行一个聚类算法，从最相似（也就是说，两者之间的距离最短）的序列开始，通过距离值方阵计算出实际的进化树，或者通过将总的树枝长度最小化而优化出进化树。用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。最大似然方法评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假定所有核苷酸（或者氨基酸）之间相互转变的概率一样。程序会把所有可能的核苷酸轮流置于进化树的内部节点上，并且计算每一个这样的序列产生实际数据的可能性（如果两个姐妹分类群都有核苷酸“A”，那么，如果假定原先的核苷酸是“C”，得到现在的“A”的可能性比起假定原先就是“A”的可能性要小得多）。所有可能的再现（不仅仅是比较可能的再现）的几率被加总，产生一个特定位点的似然值，然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。

4．进化树搜索

单一的进化树的数量会随着分类群数量的增长而呈指数增长，从而变为一个天文数字。由于计算能力的限制，现在一般只允许对很小一部分的可能的进化树进行搜索。具体的数目主要依赖于分类群的数量、优化标准、参数设定、数据结构、计算机硬件以及计算机软件。

有两种搜索方法保证可以找到最优化的进化树：穷举法和树枝�跳跃法（BB）。对于一个很大的数据集，这两种方法都很不实用。对分类群数量的限制主要取决于数据结构和计算机速度，但是对于超过20个分类群的数据集，BB方法很少会得到应用。穷举法要根据优化标准，对每一个可能的进化树进行评估。BB方法提供一个逻辑方法，以确定那些进化树值得评估，而另一些进化树可被简单屏蔽。因此BB方法通常要比穷举法快得多。

绝大多数分析方法都使用“启发式”的搜索。启发式现搜索出相近的次优化的进化树家族（“岛屿”），然后从中得到优化解（“山顶”）。不同的算法用不同程度的精确性搜索这些岛屿和山顶。最彻底也是最慢的程序（TBR，tree bisection-reconnection，进化树对分重接）先把进化树在每一个内部树枝处劈开，然后以任意方式将劈开的碎片重新组合起来。最快的算法只是检查一下相邻终端的不太重要的重新组合，因此倾向于找到最近的岛屿的山顶。

降低搜索代价的最好方法是对数据集进行剪除。影响优化搜索策略选择的因素（数据量，数据结构，时间量，硬件，分析目的）太复杂，无法推荐一个简单可行的处方。因此进行搜索的用户必须对数据非常熟悉且有明确的目标，了解各种各样的搜索程序及自己硬件设备和软件的能力。

除上述当前应用最广的方法外，还有大量的建立和搜索进化树的其它方法。这些方法包括Wagner距离方法和亲近方法（距离转化方法）；Lake的不变式方法（一个基于特征符的方法，它选择的拓扑结构包含一个意义重大的正数以支持颠换）；Hadamard结合方法（一个精细的代数方阵方法，对距离数据或者观察到的特征符进行修正）；裂解方法（这个方法决定在数据中应该支持哪一个基于距离的可选的拓扑结构）；四重奏迷惑（Quartet puzzling）方法可以为ML建树方法所应用，这个算法相对而言是个较快的进化树搜索算法。

5．确定树根

上述的建树方法所产生的都是无根树（进化树没有进化的极性）。为了评估进化假说，通常必须要确定进化树的树根。确定系统发育进化树的树根并不简单问题。一种确定树根的好方法就是分析时加入一个复制的基因。如果来自绝大多数物种或者所有物种的所有的平行基因在分析时都被包含进去，那么从逻辑上我们就可以把进化树的树根定位于平行基因进化树的交汇处，当然要假定在所有进化树中都没有长树枝问题。

6．评估进化树和数据

现在已经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性。对于前者，最流行的方法是用数据信号和随机数据作对比实验（偏斜和排列实验）；对于后者，可以对观察到的数据重新取样，进行进化树的支持实验（非参数自引导和对折方法）。似然比例实验可以对取代模型和进化树都进行评估。

5.3结构进化树

随着X－ray、NMR等实验技术的的进步，蛋白质结构数据的数量日益增多，结构精度也越来越高，使得结构比较更为可行。目前已经发现许多蛋白的一级序列差异很大，难以通过序列比对进行分子进化的研究，但它们的空间拓扑结构仍然很相似，可以进行结构叠合比较、分析它们之间的进化关系，这表明结构比较可以比序列比较获得更多更精确的结构信息。研究发现蛋白质结构比序列的保守性更强，进化过程中蛋白质序列可能发生变化，但它的折叠模式更为保守，即使是70％的序列发生变化，它的折叠模式也不会有很大的改变[1]。蛋白质分子的结构比较与蛋白质一级序列比较法相比，具有更高的优越性。

目前有关蛋白质结构比较的研究方法很多，主要有刚体结构叠合比较、多特征的结构比较等方法。前者用比较后确定的拓扑等价位点的个数或等价位点Cα原子距离的均方根值作为不同结构间差异性的量度（结构进化树）；后者用蛋白质结构的多项特征如残基的物理特性、残基的空间倾向性、主侧链的方向、主链的二面角、二级结构类型和主侧链的可接近性等综合指标作为结构的差异性量度，有时称此类方法构建的结构进化树为“类结构”进化树。

刚体叠合所构建的进化树适用于同源蛋白质结构预测的骨架结构的选择，基于序列的进化树便于描述类似性较大的蛋白质的进化关系，而结构的多特征比较则适用于分析分歧较大的蛋白质结构。

1．刚体结构叠合比较

当已知2个以上同源蛋白质的晶体结构时，可将每两套结构的原子坐标进行最佳叠合，确定类似结构中完整的一套残基等价位点，并使等价位点间的距离平方和最小，这样便得到各结构的拓扑等价区。通常将结构简化为一系列Cα位置，等价位点被定义为在重叠结构中位于某个特定距离范围（不大于3埃）之内的Cα原子。通过计算不同结构等价位点的个数或计算多个结构的等价位点Cα距离的均方根值作为不同结构间差异性的度量。再根据一般的建树方法，给出几个结构的进化关系。

刚体结构叠合方法需要蛋白质的晶体结构数据的质量要高。事实上，相对于序列而言，已测定的蛋白质晶体结构很少，许多同源蛋白质的结构并不知道。其次，尽管同源蛋白质具有相同的折叠结构，它们的二级结构成分则经历形变、相对平移和旋转使侧链达到优化的包装以适应进化的压力。对于序列相同率为30%的两个蛋白质，由刚体叠合所确定的拓扑等残基的均方根差大约为1.5埃，而且残基数可能只占全部残基数的1/3。它可能不足以进行结构比较。因此需要发展一种更灵活的确定拓扑等价位点的方法，并且要把二级结构成分的相对运动和变形也考虑进去。

2．多特征结构比较

多特征结构比较以及构建“类结构”进化树的原理与基于残基匹配记分方法（常用PAM250矩阵）进行多序列比较和构建序列进化树的原理相同。包括以下步骤：（1）动态规划配准和结构匹配；（2）多个结构的多特征比较；（3）多特征结构比较的距离量度；（4）绘制进化树图。

5.分子进化(生物信息学教程系列)

生物信息学教程系列

第五章

5 分子进化

5.1 分子进化钟与中性理论

5.2 进化树

5.3结构进化树

发表评论