1、RPKM 方法
根据 RNA-seq 原理,测序过程实际上是对转录组中各转录本打断后随机采样 的过程。因此,当某基因的表达水平较高时,该基因上的读段数就多;当某基因 的长度较长时,该基因上的读段数读段数也会较多;另外,基因上的读段数还受 到测序深度的影响,即当某次 RNA-seq 实验测序深度较深时,基因上的读段数也 较多。因此,如果要利用读段数这一统计量来估计基因表达水平,就需要将某基 因上的读段数 xg 除以基因的长度 lg 和总的测序深度 w 来进行归一化。基于这种思 想,Mortazavi 等人提出了 RPKM (Reads Per Kilo-base per Million reads)的概念 (Mortazavi et al, 2008),并成为 RNA-seq 应用早期估计基因表达水平和外显子表达 水平的主要方法。RPKM 方法的公式表示为
如果不考虑 RNA-seq 实验测序深度的影响,RPKM 方法实际上就是用读段的覆盖度来刻画基因的表达水平。假设读段在某基因的各外显子区域内都是均匀分 布的,且该基因不含有选择性剪接事件,用 RPKM 自然能较准确的刻画基因表达水平。Jiang 等人基于读段均匀采样自转录本的假设,在没有选择性剪接发生的基 因上,用极大似然估计求解 Possion 模型得到的表达水平与 RPKM 一致(Jiang H etal, 2009)。因此,我们认为 RPKM 方法暗含了读段在所研究区域内均匀分布这一 假设条件。
然而在选择性剪接基因上,由于非组成性外显子并不包含于所有剪接异构体,则非组成性外显子的读段覆盖度可能比组成性外显子的读段覆盖度低。RPKM 方 法实际上是对各外显子读段覆盖度的加权平均,从而在选择性剪接基因上不能真 实反映基因的整体表达水平,导致低估。2010 年,Trapnell 等人也注意到这种现象并严格地证明了 RPKM 方法在含有剪接异构体的基因上得到的基因整体表达 表达不同程度地低于真实的整体表达水平(Trapnell et al, 2010)。针对 RPKM 方法 低估基因表达水平这一问题,先后有研究组分别发展了两种无偏估计的策略,我们将在下面分别介绍。
由于外显子内部不受选择性剪接的影响,RPKM 方法对外显子尺度上的表达 水平估计较为有效。
2、利用组成性外显子估计基因整体表达水平的策略
为解决 RPKM 方法在含有多剪接异构体基因上低估基因整体表达水平的问 题, Bullard 等人于 2010 年提出了利用 UI (Union-Intersection)基因来估计基因整 体表达水平的策略(Bullard et al, 2010),我们称之为 UI 策略。如图1 所示,UI 策略的基本思想是,只将组成性外显子用于基因整体表达水平的估计。组成性外 显子包含了所有剪接异构体,因此用这些外显子来估计表达水平,也就考虑到了 所有异构体表达水平之和,与整体表达水平的定义一致。在读段均匀采样、样本 量足够的理想情况下,该策略能够正确估计基因的整体表达水平。
图1:UI 策略和 ISO 策略图示
UI 基因的数学定义为指示矩阵 An×m = (aij ) 中所有元素全为 1 的行所对应外显 子的并集。如式(2-1)所示的基因结构,UI 基因即指由第 3、4、6、7 个外显子的 并集构成的基因。UI 策略的公式表示为
式中:
通过定义 UI 基因,UI 策略解决了选择性剪接造成非组成性外显子上读段覆盖度较低导致基因表达水平低估的问题。但是由于这种方法将非组成性外显子上的读段全部抛弃,信息的丢失可能会对表达估计的准确性和不确 定性造成影响。此外,由于 UI 基因是原基因外显子集合的随机子集,在 UI 策略框架下很难系统地去对后面将提到的测序实验偏好造成的读段分布不均匀性建模。
3、基于剪接异构体表达推断的基因整体表达水平估计策略
除 UI 策略外,另一种更直观的解决含有多剪接异构体基因整体表达水平估 计策略是,先推断出所有属于这个基因的剪接异构体的表达水平,再将这些剪接 异构体的表达水平加和得到该基因的整体表达水平(Trapnell et al, 2010)。这种策略 根据基因整体表达水平的定义得到,但因剪接异构体表达水平的不易获取而发展 较晚。理想情况下,这种方法估计的表达水平与通过组成性外显子估计的表达水 平一致。
我们把这种通过剪接异构体(isoform)表达水平估计再求和的策略称为 ISO 策 略(图 2-4)。ISO 策略的公式表示为
式中表示剪接异构体表达水平的估计值,而求取成为该方法的关键。接下来,我们就将介绍一种基于极大似然估计求解剪接异构体表达水平的方法。
4、基于极大似然估计的剪接异构体表达推断
从图1 中可以看出,剪接异构体表达水平推断是选择性剪接基因中各层次 表达估计中最不易求解的问题。但剪接异构体表达推断却具有非常重要的研究意 义,也是 ISO 策略估计基因整体表达水平的基础。基于测序读段是独立、均匀、随机采样自各剪接异构体的假设,Jiang 等人采用泊松分布对各外显子上的读段分布进行建模,提出了一种基于极大似然估计法 来推断各剪接异构体表达水平θ 的方法(Jiang H et al, 2009)。该方法将外显子上的 读段计数和基因结构信息作为已知条件,用梯度下降法求解 m 元参数极大似然估 计中的优化问题,得到各剪接异构体的表达水平估计值。可以证明这里的极大似 然估计问题是一个凸问题(Jiang H et al, 2009),因此可使用梯度下降法求解,并保 证其得到的最优解就是全局最优解。