基因组组装常见问题集锦

2012/01/09评论6,275

基因组是如何组装的？

答：一般来说，针对以Illumina Gemone Analyzer测序结果为主的组装策略如下：

（1）先利用短序列组装软件对paired-end数据进行de novo拼接，组装成contigs，这个阶段一般需要提供高覆盖度的paired-end测序数据，需要耗费大量的计算机内存，这也是基因组组装最困难的一步；

（2）逐步加入长插入片段的mate-pair数据搭建scaffold，一般来说，mate-pair的测序深度不会太高，通过mate-pair双端距离信息，把contigs连接成更大的scaffold；

（3）复查paired-end和mate-paired插入片段长度信息，填补gap；

（4）有时候会加入454的数据，会对填补gap和延长contigs起到很大的帮助作用。

基因组De Novo测序的策略？

答：由于不同物种的基因组大小和复杂程度可能千差万别, 因此全基因组测序可以根据经费预算和基因组预分析结果, 灵活选择不同的测序平台或平台组合。

(1) 在基因组较小的物种测序计划中可以选择Roche 454 或Solexa测序平台。

(2) 对于复杂的植物大基因组可以选择两种或以上的测序平台测序，通常利用 Roche 454 的鸟枪法测序完成基因组的初步组装, 产生 454 contigs, 然后利用Solexa或 ABI SOLiD 的双末端测序数据确定 454 contigs 之间的顺序和方向, 形成 scaffolds。最后利用Solexa或ABI SOLiD数据填充部分 contigs 之间的空隙, 是一个比较合理和经济的测序策略。

(3) 另外，由于Solexa的读长已经升级到150 bp，也可以直接利用Solexa的paired-end和mate-pair两种测序方式结合测序，完成较大物种的基因组拼接。

目前有哪些拼接算法和软件？

答：目前，基于新一代测序的基因组de novo拼接软件已经有很多，其中主要可以分为两类：

（1）基于overlap graph的拼接软件，包括Celera Assembler、Arachne、CAP、PCAP等。一般来说包括以下三个步骤：首先，找出序列片段间的重叠信息；然后，将存在有重叠的片段组合起来，形成一个contig结构；最后，根据片段中每个碱基的质量值，在contig结构中寻找一条最重序列，称作“Consensus”序列。

（2）基于de bruijn graph的拼接软件，包括SOAPdenovo、Velvet、ALLPATHS、ABySS等。在de Bruijn算法中，每一个节点N代表了一系列长短为K的单词(mers)（称为k-mers），相接的k-mers之间的重叠为k-1个碱基。序列的排布信息就由依次重叠的k-mers的最后一个碱基的读取顺序决定。N节点上的序列的内容表示为s(N)。由于序列的测定的方向性并不明确，为了保证序列拼接的正确性，对于每一个N节点，都有一个反向的N'节点而对应，N与N‘是关联在一起的，所有对于N的操作同时也对N’有效。de Bruijn算法的主要工作就是通过获得的原始数据构建一个有众多N节点的图，然后用“边”来连接这些节点，从而构建一个连续的序列信息，称为“路径图”(roadmap)。

基因组是如何组装的？

基因组De Novo测序的策略？

目前有哪些拼接算法和软件？

发表评论