批量鉴定蛋白的结构域的平台介绍

         构建批量蛋白质结构域鉴定的分析平台,可以使用hmmscan(hmmer3)、hhsearch、InterProScan等,这里主要介绍hmmscan与hhsearch。

hmmscan

          hmmscan是hmmer3的一个程序,关于hmmer3的安装请参看《hmmer的安装与使用》,其将输入的蛋白质序列与HMM结构域库进行比对,返回每个蛋白质包含的结构域。命令如下:
hmmscan [options] <hmmdb> <seqfile>
         hmmdb为hmm结构域数据库,其实质为包含N个HMM模型的文件,经过hmmpress格式化后,就可以供hmmscan使用。hmmpress也是hmmer3下面的一个程序。seqfile为输入的蛋白质序列,默认为fasta格式。
         hmmscan还有很多参数可供使用,包括控制输出的参数,比如-o, 将比对结果输出到指定文件,通过指定E-value, bit score控制搜索结果,–cpu指定使用的cpu数目,–qformat指定输入蛋白质序列的格式等,可以使用-h参数参看参数帮助说明。
利用hmmscan预测分析蛋白结构域

hhsearch

           hhsearch是基于HMM-HMM comparison算法实现的,鉴定蛋白质包含的结构域的命令行软件包,在linux、windows下都有相应的软件包发布。其在线版的名称为HHpred。其首先根据输入的蛋白质序列构建hmm模型,再用这个模型与库中的hmm模型进行比对。
            HHsearch is a software suite for detecting remote homologues of proteins and generating highquality alignments for homology modeling and function prediction.
          hhsearch构建的hmm模型格式为hhm格式,要注意与hmmer中hmm格式的区别。
           下载地址:ftp://ftp.tuebingen.mpg.de/pub/protevo/HHsearch/
主要程序:
  • hhmake 通过多重比对序列构建HMM模型
  • hhsearch 执行数据库搜索
  • hhalign 比对两个HMMs模型或者多重比对序列MSAs
  • hhfilter 过滤多重比对序列,Filter MSA by maximum sequence identity, coverage, etc.
  • 还有一组pl脚本,供格式转换等数据处理使用。
可以通过FTP下载许多供搜索的数据库,包括:
  • pdb70          based on PDB, updated weekly
  • scop70        based on SCOP, updated with SCOP
  • PfamA          http://www.sanger.ac.uk/Software/Pfam/
  • SMART         http://smart.embl-heidelberg.de, downloaded from NCBI site
  • PfamB          based on ProDom, downloaded from Pfam site
  • COG             http://www.ncbi.nlm.nih.gov/COG/new
  • KOG             http://www.ncbi.nlm.nih.gov/COG/new
  • CD/NCBI      http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
  • Panther        http://www.pantherdb.org, from InterPro
  • TIGRFAMs  http://tigrblast.tigr.org/web-hmm/, from InterPro
  • PIRSF          http://pir.georgetown.edu/pirsf/, from InterPro
  • Superfamily http://supfam.mrc-lmb.cam.ac.uk/SUPERFAMILY, from InterPro
  • CATH/Gene3D http://cathwww.biochem.ucl.ac.uk/latest, from InterPro
       大致处理流程就是首先将下载的文件进行格式转换,如果是多重比对序列,使用hhmake构建hhm格式的hmm模型,将这个模型放到一个文件中,就可以使用hhsearch进行搜索了。
cd scop70_1.72pre
tar -xzvf scop70_1.72pre.hhm.tar.gz
cat *.hhm scop70_1.72pre.hhm
./hhsearch -i d1hxn__.a3m -d scop70_1.72pre.hhm
      另外:对于单个蛋白质序列的分析可以使用在线的分析平台:

发表评论

匿名网友

拖动滑块以完成验证