当我们在进行 de novo 测序时,一般而言,测序深度越深 (测序量越多)组装效果会越好,就如同统计学中所述,抽样的样本数越多,其分布会越接近母体之分布。
不过,是不是只要一直增加测序量就能完整组出 de novo 的基因体序列呢? 目前来恐怕还是件很困难的事。主要的理由在于基因体中长片段重复序列造成组装上之问题,由于长片段重复序列被打断时会产生许多相似的序列,使得在组装过程中无法判断何种组装结果是正确的。
以下就以非常简化的例子来说明长片段重复序列组装上的问题。
假设一个read只包含两个base。
Genome与 reads 的信息如下:
进行 de novo 测序,即意味着该物种之基因体序列未知,在没有基因体序列数据时,单就read的序列进行组装,我们无法得知以下哪个结果才是真正的基因体序列?
GATC
GATATC
GATATATC
…
GATATATATATATATATATATC
针对长片段重复序列,目前尚未发现有比较好的解决方式,因此,在目前,若单纯地只增加测序量,而没有辅助一些其他的工具 (如: mate-pair 或 optical mapping),要组出完整的全基因体序列,还是非常困难的。