测序深度越深就能組出完整的genome么?

评论6,691

当我们在进行 de novo 测序时,一般而言,测序深度越深 (测序量越多)组装效果会越好,就如同统计学中所述,抽样的样本数越多,其分布会越接近母体之分布。

不过,是不是只要一直增加测序量就能完整组出 de novo 的基因体序列呢? 目前来恐怕还是件很困难的事。主要的理由在于基因体中长片段重复序列造成组装上之问题,由于长片段重复序列被打断时会产生许多相似的序列,使得在组装过程中无法判断何种组装结果是正确的。

以下就以非常简化的例子来说明长片段重复序列组装上的问题。

假设一个read只包含两个base。

Genome与 reads 的信息如下:

测序深度越深就能組出完整的genome么?

进行 de novo 测序,即意味着该物种之基因体序列未知,在没有基因体序列数据时,单就read的序列进行组装,我们无法得知以下哪个结果才是真正的基因体序列?

GATC

GATATC

GATATATC

GATATATATATATATATATATC

针对长片段重复序列,目前尚未发现有比较好的解决方式,因此,在目前,若单纯地只增加测序量,而没有辅助一些其他的工具 (如: mate-pair 或 optical mapping),要组出完整的全基因体序列,还是非常困难的。

发表评论

匿名网友