人类基因组变异协会(HGVS:Human Genome Variation Society)规则是目前学术界所公认的突变命名规则。
置换(>):一个核苷酸被另一个核苷酸替代,使用“>”来表示;例如g.1318G>T;缺失(del):一个或多个核苷酸被移除,使用“del”进行描述;例如g.3661_3706del;倒置(inv):与原始序列反向互补的新的核苷酸序列(大于1个核苷酸)替换原始序列;例如由CTCGA变为TCGAG,使用”inv“表示;重复(dup):一个或多个核苷酸拷贝直接插入原始序列的下游,使用“dup”表示;插入(ins):序列中插入一个或多个核苷酸,并且插入序列并非上游序列拷贝;缺失-插入(delins/indel):一个或多个核苷酸被其他核苷酸替代,但并不是发生替代、倒置和转置;转换(con):一种特殊类型的缺失-插入,其中替代原始序列的核苷酸序列是来自基因组中另一个位点的序列拷贝。
从不同的维度出发,相同的基因突变可以有多种不同的表现形式,例如,参考序列的不同、表现层次的不同(DNA、RNA或蛋白质水平)都会导致突变的表现方式产生差异。
目前,通用的参考序列主要包括:基因组参考序列(以前缀“g.”表示)、cDNA参考序列(以前缀“c.”表示)、非编码DNA参考序列 (以前缀“n.”表示)、RNA参考序列(以前缀“r.”表示)、蛋白质参考序列(以前缀“p.”表示)。
参考序列的选择非常重要。在DNA水平描述突变时,内含子与相邻外显子的关系对于临床研究往往非常重要,为了能更好地阐明内含子的变异,通常会选择cDNA作为参考序列,这是因为以cDNA作为参考序列,能够更好的描述内含子中突变碱基与相邻外显子之间的关系。另外,基因突变也常以蛋白质水平的变化进行描述。
举例:
A. 以cDNA为参考序列的突变表达方式
替换:指与参考序列相比,一种碱基被另一种碱基所取代;以符号“>”进行表示;如:c.123A>T,表示与参考序列相比,第123位的A被T所取代;
缺失:指与参考序列相比,一个或多个碱基缺失的现象;以“del”进行表示;如:c.2052delA,表示与参考序列相比,第2052位发生A的缺失;
插入:指与参考序列相比,一个或多个碱基增添的现象;以“ins”进行表示;如:c.5756_5757insAGG,表示与参考序列相比,在第5756 与5757位点之间插入了三个碱基AGG;
缺失插入:指与参考序列相比,一个或多个碱基被其他碱基所取代的现象,并且这种变异不包括替换突变、倒置以及转换突变;以“delins”进行表示;如:c.6775delinsGA,表示与参考序列相比,第6775位缺失了一个碱基,同时缺失的碱基被GA做取代;
重复:指与参考序列相比,包含一个或多个碱基的拷贝以插入的形式直接掺入序列中的现象;以“dup”进行表示;如:c.6_8dupT,表示从第6位到第8位发生了T的重复;
B. 为了更好地理解内含子中碱基突变的表现形式,我们首先来了解一下DNA序列中各碱基所处的位置。从起始密码开始到终止密码为止,外显子序列的编号是连续的,而5'非翻译区、3'非翻译区以及内含子区的编码都是与外显子序列的编码密切相关的。
因此,内含子中碱基的替换、缺失、插入等突变的表现形式就可以分别表示为:
c.36 1G>T(c.36前一段编码区域或者说前面一个外显子的最后一个碱基位于编码区36位, 1代表这个外显子挨着的后面的内含子的第一个碱基);
c.(4071 1_4072-1)_(5154 1_5155-1)del(表示两个外显子之间的序列发生缺失);
c.37 1_37 2insATC(表示在“37 1”与“37 2”位点间插入碱基ATC);
c.4183 795C>T(c.4183前一段编码区域或前面一个外显子的最后一个碱基位于编码区4183位, 795代表这个外显子挨着内含子的第795个碱基) 。
C. 以蛋白质为参考序列的突变表达方式
1.替换:如p.Trp26Cys,表示第26位的Trp被Cys取代(错义突变);p.Trp26Ter (p.Trp26*),表示第26位的Trp变为终止密码(无义突变);p.Cys123=,表示基因突变之后,氨基酸没有发生改变(同义突变);
2.缺失:如p.Ala3_Ser5del,表示多肽序列中从第3位的Ala到第5位的Ser发生了缺失;
3.插入:如p.Lys2_Gly3insGlnSerLys,表示在第2位的Lys和第3位的Gly之间插入了GlnSerLys;
4.插入缺失:如p.Cys28delinsTrpVal,表示第28位的Cys缺失,同时被TrpVal取代;
5.重复:如p.Ala2[10],表示第2位的Ala重复了10次;
6.移码突变:在起始密码子和终止密码子之间的读码框发生了改变;以“fx”进行表示;如p.Arg97ProfsTer23,表示第97位的Arg是首个发生改变的氨基酸,且Arg变为Pro,同时发生移码突变后,终止密码的位置变为第23位