使用 MAFFT 进行多序列比对

1. MAFFT 简介

最经典和广为熟知的多序列比对软件是 clustalw 。 但是现有的多序列比对软件较多,有文献报道:比对速度(Muscle>MAFFT>ClustalW>T-Coffee),比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)。因此,推荐使用 MAFFT 软件进行多序列比对。

2. MAFFT 下载安装

  1. $ wget http://mafft.cbrc.jp/alignment/software/mafft-7.158-gcc_fc6.x86_64.rpm
  2. $ wget http://mafft.cbrc.jp/alignment/software/mafft-7.158-without-extensions-src.tgz
  3. $ cd mafft-7.158-without-extensions/core
  4. $ perl -p -i -e 's#PREFIX =.*#PREFIX = /opt/biosoft/mafft#' Makefile
  5. $ perl -p -i -e 's#BINDIR =.*#BINDIR = /opt/biosoft/mafft/bin/#' Makefile
  6. $ make
  7. $ make install
  8. $ echo 'PATH=$PATH:/opt/biosoft/mafft/bin/' >> ~/.bashrc
  9. $ source ~/.bashrc

检测软件是否正确安装

  1. $ cd ../test
  2. $ rehash # if necessary
  3. $ mafft sample > test.fftns2 # FFT-NS-2
  4. $ mafft --maxiterate 100 sample > test.fftnsi # FFT-NS-i
  5. $ mafft --globalpair sample > test.gins1 # G-INS-1
  6. $ mafft --globalpair --maxiterate 100 sample > test.ginsi # G-INS-i
  7. $ mafft --localpair sample > test.lins1 # L-INS-1
  8. $ mafft --localpair --maxiterate 100 sample > test.linsi # L-INS-i
  9. $ diff test.fftns2 sample.fftns2
  10. $ diff test.fftnsi sample.fftnsi
  11. $ diff test.gins1 sample.gins1
  12. $ diff test.ginsi sample.ginsi
  13. $ diff test.lins1 sample.lins1

若 diff 的结果不换回异常,则正确安装。

3. MAFFT 使用

MAFFT 有一些参数,适合不同情况下的多序列比对。
软件输入为 FASTA 格式,默认输出到标准输出。

3.1 较为精确的方法

L-INS-I

最准确的方法。适合于 <200 条序列,且序列长度 <~2000 aa/nt 的比对。

  1. $ mafft localpair maxiterate 1000 input [> output]
  2. $ linsi input [> output]

G-INS-I

适合于序列长度相似的多序列比对。序列条数 <200, 序列长度 <~2000 aa/nt 。

  1. $ mafft --globalpair --maxiterate 1000 input [> output]
  2. $ ginsi input [> output]

E-INS-I

适合序列中包含较大的非匹配区域。序列条数 <200, 序列长度 <~2000 aa/nt 。

  1. $ mafft --ep 0 --genafpair --maxiterate 1000 input [> output]
  2. $ einsi input [> output]

3.2 节约速度的方法

FFT-NS-I

减少迭代次数,最大迭代次数减为 2 。

  1. $ mafft --retree 2 --maxiterate 2 input [> output]
  2. $ fftnsi input [> output]

FFT-NS-2

最大迭代次数减为 0 。

  1. $ mafft --retree 2 --maxiterate 0 input [> output]
  2. $ fftns input [> output]

FFT-NS-1

此方法非常快速,适合 >2000 条序列的多序列比对。

  1. $ mafft --retree 1 --maxiterate 0 input [> output]

NW-NS-I

迭代过程中不进行 FFT aproximation

  1. $ mafft --retree 2 --maxiterate 2 --nofft input [> output]
  2. $ nwnsi input [> output]

NW-NS-2

  1. $ mafft --retree 2 --maxiterate 0 --nofft input [> output]
  2. $ nwns input [> output]

NW-NS-PARTTREE-1

3 个参数都设置为最不消耗时间的类型,适合于 ~10,000 到 ~50,000 条序列的比对。

  1. $ mafft --retree 1 --maxiterate 0 --nofft --parttree input [> output]

原文来自:http://www.chenlianfu.com/?p=2214

发表评论

匿名网友

拖动滑块以完成验证
加载失败