RepeatMasker是一款专门用于基因组重复序列识别的软件,几乎用于所有物种。是做基因组、非编码RNA的必备软件。很多ncRNA与Repeat区有高度相关性。
安装在Ubuntu 12.04上,时间为2013-4-7,所有相关软件和数据库全为最新版。
1. RMBlast序列搜索引擎
下载源RMBlast源码包: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/2.2.28/ncbi-rmblastn-2.2.28-src.tar.gz
[shell]
sudo apt-get install g++ #安装g++编译器
tar zxvf ncbi-rmblastn-2.2.28-src.tar.gz #解压
cd ncbi-rmblastn-2.2.28-src.tar.gz/c++/
./configure --with-mt --prefix=/usr/local/rmblast --without-debug
make #编译,需要半小时
sudo make install
[/shell]
2. TRF(Tandem Repeat Finder)搜寻串联重复序列
http://tandem.bu.edu/trf/trf407b.linux.download.html
[shell]
sudo mv trf407b.linux /usr/local/bin/trf #将程序移到可执行目录并改名
[/shell]
3. RepeatMasker程序
http://www.repeatmasker.org/RMDownload.html 2/21/2013: RepeatMasker-open-4-0-1.tar.gz
[shell]
tar xvzf RepeatMasker-open-4-0-1.tar.gz
[/shell]
数据库http://www.girinst.org/server/RepBase/index.php, 需要注册才能下载,人工审批,可能要等两天
repeatmaskerlibraries-20120418.tar.gz (26.76 MB)
也可以在我的百度网盘下载,http://pan.baidu.com/share/link?shareid=417337&uk=1946176681
[shell]
cp repeatmaskerlibraries-20120418.tar.gz RepeatMasker/
sudo tar xvzf repeatmaskerlibraries-20120418.tar.gz #解压并覆盖原目录
./configure #主要是输入RMBlast安装目录,/安装目录/ncbi-rmblastn-2.2.28-src/c++/GCC460-ReleaseMT/bin
sudo ln -s /安装目录/RepeatMasker/RepeatMasker /usr/local/bin/RepeatMasker #设置环境变量
[/shell]
以拟南芥基因组为例
[shell]
~/Documents/Data/genome_ath10$ RepeatMasker -species arabidopsis TAIR10_chr_all.fas
[/shell]
1F
很不错,谢谢分享,大家要行动起来,积极和朋友分享好的东西
2F
想请教博主关于RepeatMasker的-species参数问题,但不知怎么跟您联系呢?邮箱?或者bioask账号?