在基因组中存在着大量的重复序列,根据其重复的程度可分为简单重复序列、中度重复序列和高度重复序列。简单重复序列(Simple Sequence Repeat,SSR)在真核生物基因组中广泛存在,一般是以1-6bp组成较低程度的重复序列,主要以2-3个核苷酸为重复单位如(GA)n、(AC)n和(GAA)n等。从进化角度看物种间重复序列的差异是自然选择的结果。因此鉴定SSR在基因组分析中有重要意义。
今天给大家推荐一款鉴定简单重复序列的软件MISA(MIcroSAtellite identification tool)。MISA是一个用perl语言写的一个从fasta序列中鉴定SSR的脚本。
该软件下载地址:http://pgrc.ipk-gatersleben.de/misa/
下面是软件的附带的使用说明。
- DESCRIPTION: Tool for the identification and localization of
- (I) perfect microsatellites as well as
- (II) compound microsatellites (two individual microsatellites,
- disrupted by a certain number of bases)
- SYNTAX: misa.pl
- Single file in FASTA format containing the sequence(s).
- In order to specify the search criteria, an additional file containing
- the microsatellite search parameters is required named "misa.ini", which
- has the following structure:
- (a) Following a text string beginning with 'def', pairs of numbers are
- expected, whereas the first number defines the unit size and the
- second number the lower threshold of repeats for that specific unit.
- (b) Following a text string beginning with 'int' a single number defines
- the maximal number of bases between two adjacent microsatellites in
- order to specify the compound microsatellite type.
- Example:
- definition(unit_size,min_repeats): 1-10 2-6 3-5 4-5 5-5 6-5
- interruptions(max_difference_for_2_SSRs): 100
- EXAMPLE: misa.pl seqs.fasta
运行MISA时还需要另外一个文件,misa.ini。该文件记录鉴定的SSR的参数。默认情况下:
第一行:definition(unit_size,min_repeats) 是SSR pattern
第二行:interruptions(max_difference_for_2_SSRs)是两个SSR之间的间隔。
筛选标准为:单核苷酸重复的次数在16次或 16次以上 ,二核苷酸重复的次数在 6次或 6次以上 ,三至六核苷酸重复的次数在 5次或 5次以上等。同时 ,也筛选中间被少数碱基 (间隔小于100或等于100)打断的 ( interrupted)不完全重复的SSR)
运行前将misa.ini与misa.pl 放在一起,输入的序列存在fasta文件里面,然后运行下面的命令:
[shell]
perl misa.pl genome.fasta
[/shell]
1F
还是不会用MISA,脚本下载了不会运行,也不知道具体步骤是神魔,恳请老师帮助我,衷心感谢。
2F
网址失效了,能重新提供一一个下载的地方吗?
3F
你好,这个对输入的fasta文件有什么要求吗?输出不是有三种文件吗?为什么我运行的没有*misa文件输出?只有gff和static*呢,哪里可以设置吗?
B1
@ 有一颗当键盘手的心 我也是生成不了.misa文件,这是什么原因呢?
B1
@ 有一颗当键盘手的心 misa.ini 文件设置的输出gff格式, .misa和.gff输出的内容差不多
来自外部的引用