COBALT:NCBI在线蛋白多序列比对

评论32,899

COBALT is a multiple sequence alignment tool that finds a collection of pairwise constraints derived from conserved domain database, protein motif database, and sequence similarity, using RPS-Blast, BLASTP, and PHI-BLAST.

Pairwise constraints are then incorporated into a progressive multiple alignment.

COBALT是一个蛋白的多序列比对工具,其实用法跟ClustalW是很像的。算法应该是不一样的。在我看来,COBALT是应该更加精确的。因为COBALT在多序列比对的同时,也用到RPS-BLAST, BLASTP, 和PHI-BLAST等工具,并且也用到了conserved domain database (CDD) 和PROSITE protein-motif database来保证COBALT比对结果的质量。最后比对的结果可以生成系统进化树。COBALT算是NCBI在线Blast功能的一个的延伸。

COBALT的用法与结果分析

在线COBALT的网址可以在NCBI在线Blast的主页能找到或是直接用下来的网址:
www.ncbi.nlm.nih.gov/tools/cobalt/

进入COBALT的界面如图1-A所示,跟Blast的界面是相似的,比较简单,也是用Fasta格式的序列,这里就不多讲了。在最下面”Advanced parameters”也可以设置比对的参数,一般来讲,默认的参数是保证结果质量和比对速度最优化的参数,乱改的话反而会使比对的性能下降。

图1-B所示是COBALT序列比对的结果,可以看出其中有条序列(XP_511495)跟其它序列的差别很大,使整个比对的结果多了好多Gap,并且打断了可能的蛋白结构域。由图1-C所知,XP_511495是一个预测的序列,这样的序列对序列比对是没有任何参考作用的,反而对比对的结果造成影响。

COBALT另一个好的功能就是可以把不好的序列去掉再重新比对,看图1C,把XP_511495前面的勾去掉,然后点击Re-align,这样多次的筛选与比对,才能达到精确的结果,看图1-D。

COBALT:NCBI在线蛋白多序列比对-图片1

 图 1. COBALT interface and multiple alignments.

从NCBI在线Blast结果运行COBALT:
另外,也可以从在线Blast运行后的结果中再接着运行COBALT,这样子可以更容易地收集同源蛋白。例如以人的参考序列NP_000939为例做Blastp找bony fishes的同源蛋白,参数选择如下:Database = Reference proteins (refseq_protein); Organism = bony fishes; Entrez query = srcdb RefSeq known[properties]; Expect threshold = 1e-6。运行的结果如图2-A所示。图中2-A 箭头所示,点击“Multiple alignment”就链接到COBALT接着做多序列比对。

生成系统进化树
Blast的结果跟COBALT的结果都是可以直接生成系统进化树的,如图2-B所示,点击“Phylogenetic tree”就能显示进化树。进化树结果如图2-C所示。

COBALT:NCBI在线蛋白多序列比对-图片2

图 2. BLAST, COBALT results, and phylogenetic tree of growth hormone family members

重新找回COBALT运行的结果
COBALT运行的结果会生成一个Cobalt RID值,并且这个结果会在NCBI保存36个小时,如果在这段时间,你需要重新看回这个结果,你可以根据这个Cobalt RID找回COBALT运行的结果。保存的结果页面在COBALT页面最顶端的左边,点击”Recent Results”进入。

总结与COBALT接下来的改进方向
COBALT是一个新的蛋折分析工具,是对Blast的一个补充。COBALT接下来需要改进的是,可以重新设定和下载比对结果的格式。

原文检索:

http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=newsncbi&part=JEKOtU220.bid.1

参考文献:Papadopoulos JS and Agarwala R, Bioinformatics 23:1073-79, 2007 (PMID: 17332019)

原文来自:http://liucheng.name/565/

发表评论

匿名网友