得分矩阵PAM与BLOSUM的比较与区别

2011/09/21评论7,526

对于蛋白质序列，计分矩阵主要用于记录在做序列比对时两个相对应的残基的相似度，一旦这个矩阵定义好了以后，比对程式就可以利用这个矩阵，尽量将相似的残基排在一起，以达到最好的比对。

得分矩阵主要有两种，第一种就是PAM（Point Accepted Multation)，另一种就是BLOSUM。
1、PAM矩阵（Point Accepted Mutation）
基于进化的点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变，但这并不意味100次PAM后，每个氨基酸都发生变化，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸。

PAM矩阵的制作步骤：构建序列相似（大于85％）的比对计算氨基酸 j 的相对突变率mj（j被其它氨基酸替换的次数）针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数替换次数除以相对突变率（mj）利用每个氨基酸出现的频度对j 进行标准化取常用对数，得到PAM-1(i, j) 将PAM-1自乘N次，可以得到PAM-N。

这种矩阵的缺点是一旦PAM1的矩阵有效地误差，那么自乘250后得到的PAM250矩阵的误差就会变得很大。如，PAM120矩阵用于比较相距120个PAM单位的序列。一个PAM-N矩阵元素（i，j）的值：反应两个相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸的频率。针对不同的进化距离采用PAM 矩阵序列相似度 = 40% 50% 60% | | | 打分矩阵 = PAM120 PAM80 PAM60 PAM250 → 14% – 27% 2、BLOSUM 矩阵此矩阵与PAM矩阵的不同之处在于：用于产生矩阵的蛋白质家族及多肽链数目，BLOSUM比PAM大约多20倍。

PAM：家族内成员相比，然后把所有家族中对某种氨基酸的比较结果加和在一起，产生“取代”数据（PAM-1 ）；PAM-1自乘n次，得PAM-n。
BLOSUM：首先寻找氨基酸模式，即有意义的一段氨基酸片断（如一个结构域及其相邻的两小段氨基酸序列），分别比较相同的氨基酸模式之间氨基酸的保守性（某种氨基酸对另一种氨基酸的取代数据），然后，以所有 60％保守性的氨基酸模式之间的比较数据为根据，产生BLOSUM60；以所有80％保守性的氨基酸模式之间的比较数据为根据，产生BLOSUM80。
PAM-n中，n 越小，表示氨基酸变异的可能性越小；相似的序列之间比较应该选用n值小的矩阵，不太相似的序列之间比较应该选用n值大的矩阵。PAM-250用于约20%相同序列之间的比较。BLOSUM-n中，n越小，表示氨基酸相似的可能性越小；相似的序列之间比较应该选用 n 值大的矩阵，不太相似的序列之间比较应该选用n值小的矩阵。BLOSUM-62用来比较62％相似度的序列，BLOSUM-80用来比较80％左右的序列。

本文转载自：http://www.dingding.biz

发表评论