Duplicate是个老大难问题,但处理与否要看具体情况,比如做DNA样本的时候,一定会处理,而RNA样本选择不处理。接下来有一些解决方法,但是“但是”也会很多,接受现实吧~~~
首先Duplicate出现的类型有两种,一种是由于PCR扩增的原因导致的完全一样的reads,另一种是比对到基因组上同一位置不同的reads,但由于质量问题、测序错误、比对错误、等位基因等等,被认为是Duplicate。针对DNA来说,第一种Duplicate去除比较简单,在比对之前除去也可以节省比对时间;第二种比较复杂,对于DNA和RNA来说都有不去的理由,举个RNA的例子来说,cDNA的等位基因来源于父本和母本的重组,而等位基因的snp差异有可能表现出相关的生物信息(ASE),如果去掉Duplicate就会丢掉一些信息。
所以说,博主认为并不能简单的处理Duplicate。在第二代测序中,较长的reads和PE测序要比SE测序无论从组装还是从比对来说都要好,当然也包括校正Duplicate。但是(是不是很痛恨这个”但是“),如果你想做跟拷贝数变异有关,抱歉这种方法仍然拯救不了你,对于多倍体的物种,那就更不要说了。
接下来是建议解决方案:
1.避免微量的样品建库,单细胞测序比较蛋疼
2.PCR扩增循环保持一个绝对低的水平
3.PE建库,片段尽量长,不过solexa的长片段测序质量令人担忧
4.对于DNA样本来说,将PE整长度当成SE来进行去除Duplicate
5.RNA建议不要去除Duplicate,但尽量保证前3项条件
6.实验设计,很大的问题就是实验过程中试剂、方法导致PCR扩增的偏向性,多看看文献吧。。。博主也无能为力。
原文来自:http://blog.csdn.net/skenoy/article/details/8658426