1. rfam 简介
Rfam 是一个数据库,用于鉴定 non-coding RNAs。 其官网:http://rfam.sanger.ac.uk。 其参考文献:Rfam 11.0: 10 years of RNA families。
2. rfam 安装
说明文档:ftp://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/Expandednotesonrunningrfam_scan.pl.txt
2.1 下载 rfam_scan.pl 软件
下载最新版本的 rfam_scan.pl 软件
$ mkdir /opt/biosoft/rfam $ cd /opt/biosoft/rfam $ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/rfam_scan.pl $ chmod 755 rfam_scan.pl $ echo 'PATH=$PATH:/opt/biosoft/rfam' >> ~/.bashrc $ source ~/.bashrc
2.2 安装 infernal
rfam_scan.pl 的运行需要 infernal 软件。此外还需要 Perl 5.6 及以上版本,NCBI BLAST 程序 和 Bioperl。 rfam 11 版本的 rfam_scan.pl 需要安装 infernal 1.0 (1.1版本会报错):
$ wget http://selab.janelia.org/software/infernal/infernal-1.0.2.tar.gz $ tar zxf infernal-1.0.2.tar.gz $ cd infernal-1.0.2 $ ./configure --prefix=/opt/biosoft/infernal-1.0.2 && make && make install $ echo 'PATH=$PATH:/opt/biosoft/infernal-1.0.2/bin/' >> ~/.bashrc $ source ~/.bashrc
2.3 下载并安装 rfam 的 blast 和 cm 数据库
blast 数据库包含了所有 rfam 家族的核酸序列。并且这些序列进行以 90% 的一致性进行了去冗余处理。 cm 数据库包含了所有的 rfam 家族的 covariance models。 rfam 11 版本中包含了 383,004 条序列和 2,208 个 cms(即 2,208 个 rfam 家族)。
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.fasta.gz $ gzip -d Rfam.fasta.gz $ formatdb -i Rfam.fasta -p F $ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz $ gzip -d Rfam.cm.gz
3. 使用 rfam
常用例子:
$rfam_scan.pl -blastdb /opt/biosoft/rfam/Rfam.fasta /opt/biosoft/rfam/Rfam.cm genome.fasta -o rfam.gff3
上述例子中,软件将调用 blast 将 query 序列比对到 Rfam.fasta 的 blast 数据库中,去寻找相应的 ncRNA 的相似序列,使用的 blast evalue 的阈值是 0.01 。 然后将 blast 的结果再调用 cmsearch 使用 Rfam.cm 进行验证,减少假阳性概率。如果不使用 blast,仅使用 cmsearch 则速度极慢。
原文来自:http://www.chenlianfu.com/?p=2185