目前,随着单细胞RNA测序技术(scRNA)的成熟,新的测序方案不断出现。那么,各种技术平台的性能如何呢?优缺点有哪些呢?如何根据我们的研究目的选择合理的单细胞RNA测序技术呢?
本文系统的比较了6种主流的单细胞RNA测序方法:CEL-seq2, Drop-seq, MARS-seq, SCRBseq, Smart-seq和Smart-seq2,从而为我们合理的选择技术平台、设计实验方案提供参考。
scRNA测序方法介绍
6种测序方法都是通过捕获mRNA的3`段polyA进行反转录、扩增、建库和测序。
主要的区别在于Smart-seq/C1和Smart-seq2为基于full length的测序方案,而其余的四种为基于unique molecular identifiers (UMIs)的测序方案;
其中,前者对整条转录本进行测序,后者仅对转录本的一段序列进行测序
实验材料
583个小鼠的胚胎干细胞(mESCs),该细胞培养于有两种抑制剂的环境中,从而获得一致性相对较好的细胞群体。
同时,建库时添加已知浓度的92种外源RNA分子(External RNA Control Consortium,ERCCs)。对每一种技术,进行两次重复建库。
结果分析
1)QC
首先,作者对各个平台的测序质量进行评估。从比对率来看,6个平台均超过了50%;且对于全长的测序方案而言,smart-seq有30%,smart-seq2有48%的reads比对到了外显子区域。
对于UMI模型的平台,外显子区域的reads比例则低于15%(下图);表明full length和UMI模型的测序有较大的差异。
对测序深度的评估主要采用下抽样的饱和度分析,结果表明当reads number>100万时,可以达到饱和,与其他的研究结果一致(下图)。
2)敏感度评估
在单细胞RNA测序中,一个主要的问题就是drop out效应;所谓drop out效应,就是细胞中实际有某基因的表达但是检测结果为零表达。
因此,单细胞测序评估对基因表达(mRNA)的捕获效率,即敏感度(sensitivity),是一个重要的技术指标。
通常敏感度的评估指对相同的实验材料在相同的测序深度下,单个细胞检测的基因表达数量。
结果表明,Smart-seq2的敏感度最高(中位数9,138/cell),Drop-seq和MARS-seq的敏感度最低,中位数分别为4,811/cell 和 4,763/cell(下图)。
为了评估在多个细胞中检测到的基因总数差异,对每种方法将65个细胞的reads合在一起分析,结果发现19000个基因 for CEL-Seq2/C1, 17000 for MARS-seq, 18000 for Drop-seq、SCRB-Seq, 20000 for Smart-seq/C1, 21000 for Smart-seq2;
同时发现,大部分的基因(13000)可以被6种方法检测到,但是full length特异性的基因数目(~1000)要大于3`段特异性基因的数目(~300)。同时表明,总的检测细胞数目与基因数成正比(下图)。
3)scRNA-Seq的准确度评估
为了评估各个方法对基因表达定量的准确性(Accuracy),对92个外源的ERCC转录本,采用线性模型拟合了观测的表达值(counts per million or UMIs per million)与已知的浓度的相关系数(R2);
结果表明,各个方法的相关系数均较高,从0.83 (MARS-seq) 到 0.91 (Smart-seq2)不等,但是Kruskal-Wallis检验表明各个方法之间有显著的差异(p < 2.2e16)(下图)。
4)基因扩增的精确度评估
所谓Precision,可以简单的认为基因表达水平估计的重现率。由于本实验的细胞和条件的一致性,因此各个方法得到结果差异理论上均来源于技术差异(technical variation),而非生物学差异(biological variation)。
单细胞的技术差异主要来源于两个方面:捕获时的drop out效应以及扩增时的偏好性。这里,有13,361个基因在25%的细胞中被至少一种方法检测到了表达,然后挑选65个细胞对这些基因进行分析。
dropout分析发现,MARS-seq具有最高的中位dropout概率(74%),而Smart-seq2则最低(26%),这也与之前的敏感度分析结果一致(下图)
而对扩增的变异系数分析发现,如果以reads来定量,则smart-seq2的变异系数最小;而如果采用UMI定量,则可以显著的减少变异系数(下图),表明UMI技术在定量的准确性上更具有优势。
5)综合效能(power)的评估
为了评估各个方法对差异基因发现的效能(power),作者通过模拟的方法使两组细胞的13,361个基因中的5%有表达差异,然后采用limma进行差异分析,并计算真阳性率(TPR)和假阳性率(FPR)。
首先评估细胞数量对TPR和FPR的影响(每个细胞100万条reads),结果见下图,表明每组的细胞数>64后真阳性率开始比较稳定。
继而,在64 cell/group和100万 reads/cell的条件下,分别比较了基于reads 和UMI的差异分析,结果表明smart-seq2在基于reads的条件下有最好的结果,而其他的方法采用UMI 则效果也会有较大的提升。
而对100万的reads下抽样至50万和25万也表明随着reads数的下降,真阳性率也降低(下图)。
6)性价比评估
基于各个技术的敏感度、准确度、精确度和效能,我们可以选择合适的技术平台。但是,测多少细胞,测多少reads,仍有一个重要的考量,就是实验成本。
作者统计了6种方法的单价(下表)。总之,实验方案的设计需要同时考虑技术和成本问题,当然,土豪可以忽略钱。
总结
单细胞RNA研究中考虑的三个主要问题是:1)full length 还是UMI ?2)cell number;3)sequencing reads number。其主要是根据我们的研究目的而定。
目前来看,细胞图谱类的研究由于要测大量的细胞(>10,000),因此常采用UMI的方法(drop-seq),测序深度约为100万 reads/cell;该类研究主要是细胞分类和marker基因的鉴定,因此UMI的信息是足够的。
而对于其他的研究,如果想获得更多的信息,则采用smart-seq2的全长模式比较合适,建议测序深度加高,以便可以得到如lncRNA、miRAN和可变剪接(Alternative Splice)等更多的生物信息。
参考文献:
Ziegenhain C, Vieth B, Parekh S, et al. Comparative Analysis of Single-Cell RNA Sequencing Methods[J]. Molecular Cell, 2017, 65(4):631-643.e4.