短序列比对工具简介

2014/03/03评论13,521

有趣的是，大部分的short read比对工具都是由中国人写出来的。因此可以说华大基因（BGI， Beijing Genomics Institute, Chinese Academy of Science）是中国NGS测序技术的摇篮。

速度上较有优势的short read（短序）比对工具最早出现的是SOAP（表1）。它很好地解决了一个问题，那就是如何在小内存（4G）的机器上将短序比对至人类基因组这样的大数据上去。我们都知道，人类基因组的大小为3.2G（表2），光把这样大的数据读入内存都是一件不太容易的事情。所以SOAP对NGS的贡献是值得我们记住的。SOAP在设计之初是针对single-end reads，所以对paired-end的支持不被大家看好。它的成功也逐步被后起之秀所掩盖。

表1：发表时间

软件	发表年代	PMID
SOAP	2008	18227114
Maq	2008	18714091
BWA	2009	19451168
Bowtie	2009	19261174
NovoAlign	2009
Subread	2013	23558742

表2：基因组大小（数据来源Ensenbl， release 72）

物种	碱基数	基因数
人 homo sapiens	3.3G	～21K
小鼠 mus musculus	3.5G	～23K
大鼠 rattus norvegicus	2.6G	～23K
果蝇 Drosophila melanogaster	169M	～14K
线虫 Caenorhabditis elegans	103M	～21K

之后先后出现了两个重要的比对软件，MAQ/BWA以及Bowtie。MAQ/BWA是Heng Li发表的。Li是从华大基因走出来的人，后来去了Wellcome Trust Sanger Institute, 现在在哈佛Broad Institute。MAQ的引用率非常高，并成为了Li的成名作。之后写作的BWA以准确率高而闻名，是SNP分析的首选比对软件。

而Bowtie借着其算法上的优势，在运算速度上一举成名。如果对速度的要求高于准确率的时候，bowtie就成了不二选择。bowtie被广泛地应用于ChIP-seq, RNA-seq的分析当中。

NovoAlign是一款商业软件，但是如果只是科研用途的话，可以直接从其网站上下载到编译好的程序（只支持unix/linux/mac）。它也有MPI版本。但是因为在单机上运行效率问题以及商业化的原因，它的应用并不象BWA和Bowtie那样广泛。

Subread是最新出现的比对软件。作者Wei Shi在文章中声称subread在速度和准确率上都较之前的主流软件有优势。并且它还有R/Bioconductor版本。但是在SEQanswers的讨论中，他与BWA的作者Heng Li打起了口水战，他们都声称自己的软件才是准确率最高的。甚至两人还给出了截然相反的两组比较数据（下图）

由于公说公有理，婆说婆有理，加上subread还需要时间来考验，所以现在还无从判断谁的更具有优势。

由于选择变多了，人们往往会变得无所适从。就我个人经验而言（其实是对研究机构前人脚本学习和接受），对于ChIP-seq, RNA-seq，多使用bowtie2，因为它快速，下游结合cufflinks等结果验证率很高。对于SNP， Indels, methylation分析，使用BWA，下游结合GATK可能会好一点。

原文来自：http://pgfe.umassmed.edu/ou/archives/3197

发表评论