Duplicate与PCR扩增偏向性

2013/05/03评论4,065

Duplicate是个老大难问题，但处理与否要看具体情况，比如做DNA样本的时候，一定会处理，而RNA样本选择不处理。接下来有一些解决方法，但是“但是”也会很多，接受现实吧~~~

首先Duplicate出现的类型有两种，一种是由于PCR扩增的原因导致的完全一样的reads，另一种是比对到基因组上同一位置不同的reads，但由于质量问题、测序错误、比对错误、等位基因等等，被认为是Duplicate。针对DNA来说，第一种Duplicate去除比较简单，在比对之前除去也可以节省比对时间；第二种比较复杂，对于DNA和RNA来说都有不去的理由，举个RNA的例子来说，cDNA的等位基因来源于父本和母本的重组，而等位基因的snp差异有可能表现出相关的生物信息（ASE），如果去掉Duplicate就会丢掉一些信息。

所以说，博主认为并不能简单的处理Duplicate。在第二代测序中，较长的reads和PE测序要比SE测序无论从组装还是从比对来说都要好，当然也包括校正Duplicate。但是（是不是很痛恨这个”但是“），如果你想做跟拷贝数变异有关，抱歉这种方法仍然拯救不了你，对于多倍体的物种，那就更不要说了。

接下来是建议解决方案：

1.避免微量的样品建库，单细胞测序比较蛋疼
2.PCR扩增循环保持一个绝对低的水平
3.PE建库，片段尽量长，不过solexa的长片段测序质量令人担忧
4.对于DNA样本来说，将PE整长度当成SE来进行去除Duplicate
5.RNA建议不要去除Duplicate，但尽量保证前3项条件
6.实验设计，很大的问题就是实验过程中试剂、方法导致PCR扩增的偏向性，多看看文献吧。。。博主也无能为力。

原文来自：http://blog.csdn.net/skenoy/article/details/8658426

发表评论