单细胞知识-测序饱和度

2014/07/22来源：10xgenomics评论2,995

单细胞知识-测序饱和度-图片1

与其他高通量测序技术类似，10x Genomics单细胞转录组测序数据的各项主要指标需要经过统计和质控，以便评价测序数据的整体质量。在众多的指标中，关于测序饱和度（sequencing saturation）流传着多种说法：“饱和度高于70%数据才够用”，“增加数据量就能增加饱和度”，“增加捕获细胞数必须增加测序数据量才能保证测序饱和度”……这些言之凿凿的说法，有时候却彼此矛盾，给10x Genomics技术的初学者带来了不少困扰。

饱和度作为质控标准是否如此重要？饱和度不高又需要如何优化？今天，小编整理了10x Genomics官方说明和大量安诺项目经验，为你揭开10x Genomics单细胞转录组“测序饱和度”的神秘面纱~

单细胞知识-测序饱和度-图片2

Cell Ranger分析结果展示，红色方框中就是今天的主角！

1. 什么是测序饱和度？

测序饱和度是反映当前测序量与文库复杂度相关性的指标，其大小主要取决于测序深度和文库复杂度。

测序饱和度受测序深度影响。一般来说，测序reads越多，被检测到的独特转录本就越多。如下图所示，被检测到的基因数会随着测序深度的增加而增加，但当测序深度达到一定程度，被检测到基因数量的增加程度逐渐变缓，直到不再随测序深度增加而增加即达到饱和。最终可检测到的基因数量取决于细胞类型。

测序饱和度还受文库复杂度的限制。通常来说，不同类型的细胞含有不同数量、不同类型的RNA，因此不同类型细胞建成的文库中也包含着不同数量、不同类型的转录本，即文库复杂度存在差异。复杂度高的文库中转录本的数量和类型更多，检测一个新转录本所需的额外reads数量也就更多，即增加饱和度需要测定的reads更多。

单细胞知识-测序饱和度-图片3

10x Genomics单细胞转录组文库测序深度与每细胞检测到基因中位数的关系图

注：原代细胞类型（如PBMC和小鼠胚胎神经元）转录本类型少，相同reads数量下检测到的转录本类型少，且较少reads数量就能达到饱和；细胞系（如 hek293t 和3t3）转录本类型多，相同reads数量下测到的转录本类型多，很难达到饱和。

2. 测序饱和度是如何算出来的呢？

测序饱和度是通过计算含有有效barcode和有效UMI的非唯一reads在精确比对reads中占比得到的，其计算公式如下：

Sequencing Saturation = 1 - (n_deduped_reads / N_reads)

n_deduped_reads：准确比对的reads中唯一（有效barcode+有效UMI+基因）组合的数量

N_reads：准确比对的reads中所有（有效barcode+有效UMI+基因）组合的数量

简单来说，在数据准确有效的情况下，每检测到一种独特的reads，该项目的reads类型计数增加1，N_reads表示该项目共检测到了N种独特的reads。n_deduped_reads表示在N种独特的reads之中，有n种reads仅被检测到了1次。测序饱和度是指至少被检测到2次的reads占比，也就是1 - (n_deduped_reads / N_reads)。

3. 测序饱和度多少才合适呢？

测序饱和度是衡量测序文库复杂度的指标。是否需要高测序饱和度，取决于实验的目的。如果研究目的是将细胞聚集成不同亚群后进行下游分析，检测的对象主要是在细胞中高表达的标志基因（marker genes），那么就不需要检测到每个细胞中所有独特的转录本，较低的测序饱和度就可以满足该研究目的。如果试图鉴定各细胞中低表达的转录本，则需要更高的测序饱和度。

测序饱和度的倒数可以解释为检测一个新转录所需的额外reads。如果测序饱和度是50% ，那么概率上每多测2个reads将有一个新的 UMI（唯一的转录本）计数；相比之下，测序饱和度达到90% 时，意味着需要多测10个reads才能获得一个新的UMI（唯一的转录本）计数。如果测序饱和度很高，额外的测序将不会获得更多有效信息。

发表评论