基因组是如何组装的?
答:一般来说,针对以Illumina Gemone Analyzer测序结果为主的组装策略如下:
(1)先利用短序列组装软件对paired-end数据进行de novo拼接,组装成contigs,这个阶段一般需要提供高覆盖度的paired-end测序数据,需要耗费大量的计算机内存,这也是基因组组装最困难的一步;
(2)逐步加入长插入片段的mate-pair数据搭建scaffold,一般来说,mate-pair的测序深度不会太高,通过mate-pair双端距离信息,把contigs连接成更大的scaffold;
(3)复查paired-end和mate-paired插入片段长度信息,填补gap;
(4)有时候会加入454的数据,会对填补gap和延长contigs起到很大的帮助作用。
基因组De Novo测序的策略?
答:由于不同物种的基因组大小和复杂程度可能千差万别, 因此全基因组测序可以根据经费预算和基因组预分析结果, 灵活选择不同的测序平台或平台组合。
(1) 在基因组较小的物种测序计划中可以选择Roche 454 或Solexa测序平台。
(2) 对于复杂的植物大基因组可以选择两种或以上的测序平台测序,通常利用 Roche 454 的鸟枪法测序完成基因组的初步组装, 产生 454 contigs, 然后利用Solexa或 ABI SOLiD 的双末端测序数据确定 454 contigs 之间的顺序和方向, 形成 scaffolds。最后利用Solexa或ABI SOLiD数据填充部分 contigs 之间的空隙, 是一个比较合理和经济的测序策略。
(3) 另外,由于Solexa的读长已经升级到150 bp,也可以直接利用Solexa的paired-end和mate-pair两种测序方式结合测序,完成较大物种的基因组拼接。
目前有哪些拼接算法和软件?
答: 目前,基于新一代测序的基因组de novo拼接软件已经有很多,其中主要可以分为两类:
(1)基于overlap graph的拼接软件,包括Celera Assembler、Arachne、CAP、PCAP等。一般来说包括以下三个步骤:首先,找出序列片段间的重叠信息;然后,将存在有重叠的片段组合起来,形成一个contig结构;最后,根据片段中每个碱基的质量值,在contig结构中寻找一条最重序列,称作“Consensus”序列。
(2) 基于de bruijn graph的拼接软件,包括SOAPdenovo、Velvet、ALLPATHS、ABySS等。在de Bruijn算法中,每一个节点N代表了一系列长短为K的单词(mers)(称为k-mers),相接的k-mers之间的重叠为k-1个碱基。序列的排布信息就由依次重叠的k-mers的最后一个碱基的读取顺序决定。N节点上的序列的内容表示为s(N)。由于序列的测定的方向性并不明确,为了保证序列拼接的正确性,对于每一个N节点,都有一个反向的N'节点而对应,N与N‘是关联在一起的,所有对于N的操作同时也对N’有效。de Bruijn算法的主要工作就是通过获得的原始数据构建一个有众多N节点的图,然后用“边”来连接这些节点,从而构建一个连续的序列信息,称为“路径图”(roadmap)。