使用 rfam 进行 ncRNA 注释

1. rfam 简介

Rfam 是一个数据库,用于鉴定 non-coding RNAs。 其官网:http://rfam.sanger.ac.uk。 其参考文献:Rfam 11.0: 10 years of RNA families

2. rfam 安装

说明文档:ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/Expandednotesonrunningrfam_scan.pl.txt

2.1 下载 rfam_scan.pl 软件

下载最新版本的 rfam_scan.pl 软件

$ mkdir /opt/biosoft/rfam
$ cd /opt/biosoft/rfam
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/rfam_scan.pl
$ chmod 755 rfam_scan.pl
$ echo 'PATH=$PATH:/opt/biosoft/rfam' >> ~/.bashrc
$ source ~/.bashrc

2.2 安装 infernal

rfam_scan.pl 的运行需要 infernal 软件。此外还需要 Perl 5.6 及以上版本,NCBI BLAST 程序 和 Bioperl。 rfam 11 版本的 rfam_scan.pl 需要安装 infernal 1.0 (1.1版本会报错):

$ wget http://selab.janelia.org/software/infernal/infernal-1.0.2.tar.gz
$ tar zxf infernal-1.0.2.tar.gz
$ cd infernal-1.0.2
$ ./configure --prefix=/opt/biosoft/infernal-1.0.2 && make && make install
$ echo 'PATH=$PATH:/opt/biosoft/infernal-1.0.2/bin/' >> ~/.bashrc
$ source ~/.bashrc

2.3 下载并安装 rfam 的 blast 和 cm 数据库

blast 数据库包含了所有 rfam 家族的核酸序列。并且这些序列进行以 90% 的一致性进行了去冗余处理。 cm 数据库包含了所有的 rfam 家族的 covariance models。 rfam 11 版本中包含了 383,004 条序列和 2,208 个 cms(即 2,208 个 rfam 家族)。

$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.fasta.gz
$ gzip -d Rfam.fasta.gz
$ formatdb -i Rfam.fasta -p F
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
$ gzip -d Rfam.cm.gz

3. 使用 rfam

常用例子:

$rfam_scan.pl -blastdb /opt/biosoft/rfam/Rfam.fasta /opt/biosoft/rfam/Rfam.cm genome.fasta -o rfam.gff3

上述例子中,软件将调用 blast 将 query 序列比对到 Rfam.fasta 的 blast 数据库中,去寻找相应的 ncRNA 的相似序列,使用的 blast evalue 的阈值是 0.01 。 然后将 blast 的结果再调用 cmsearch 使用 Rfam.cm 进行验证,减少假阳性概率。如果不使用 blast,仅使用 cmsearch 则速度极慢。

原文来自:http://www.chenlianfu.com/?p=2185

 

发表评论

匿名网友

拖动滑块以完成验证