如今人们进行转录组分析大多是在第二代测序平台上进行RNA-seq,将样品中的RNA反转录为cDNA,构建测序文库,再进行测序分析。随着RNA-seq技术的逐渐普及,自然也出现了许多RNA-seq分析工具,面对如此多的选择您是否已经眼花缭乱了呢?本文就为您从头至尾进行了一番梳理。
人们在开始着手转录组分析研究时就会发现,不同细胞类型(如皮肤细胞和肾脏细胞)之间的区别只是基因表达的不同。所有细胞所含的DNA都是一样的,是这些DNA生产出的蛋白质决定了细胞的类型和行为。负责传达蛋白质合成指令的是RNA,而科学家们也早就意识到,RNA检测能够为他们揭示不同组织、发育阶段和疾病中特征性的基因表达差异。
RNA-Seq vs微阵列芯片
就在几年前,要获得细胞转录水平的全景图研究“转录组”还只有唯一的选择:DNA芯片。而随着第二代测序技术NGS的迅猛发展,NGS的价格也越来越亲民,大大转变了RNA研究领域的技术应用格局。
如今,人们进行转录组分析大多是在第二代测序平台上进行RNA-seq,将样品中的RNA(如总RNA、信使RNA或者非编码RNA等)反转录为cDNA,构建测序文库,再进行测序分析。
英国剑桥Wellcome Trust基因组科学院欧洲生物信息研究所的研究组带头人John Marioni说,RNA-seq技术比DNA芯片更具优势,能够对没有参考基因组或无DNA芯片产品的物种直接进行研究。芯片制造商们通常只针对果蝇、线虫、小鼠和大鼠等实验室经典模式生物生产芯片。目前有许多物种还没有参考基因组或者DNA芯片,更何况如果研究者不能提供所要检测的部分序列就无法构建相应芯片。
“如果您想要研究的是位于进化阶梯底层的生物,就没法用芯片来做,例如海绵或其他海洋软体动物等,”Marioni说。
相比之下,RNA-seq技术就不存在这样的限制,这种技术可以直接读取样本中的任何cDNA,而不论研究人员是否了解自己所检测的DNA。
Marioni是一名开发RNA-seq数据分析工具的统计学家和计算机生物学家,自2008年以来就一直应用这一技术。今年他作为共同作者在Genome Res杂志上发表了一篇文章,通过RNA-seq分析了16种哺乳动物的遗传学差异和突变(包括11种非人类灵长动物),其中7种生物“此前几乎没有任何基因组数据。”
Marioni的目标是开发出实用工具,将RNA-seq原始数据转变为生物学结论。“我们得到了灵长类动物转录本的量,并且希望开发一种计算机模型,能够以输入数据就得出生物学推论。并由此判断我们分析的实验结果是偶发性事件还是有意义的数据,”Marioni解释道。
此外,与DNA芯片相比RNA-seq还具有更多优势,它提供的动态范围比芯片更宽,可以轻松检测到低丰度的转录本。DNA芯片是在荧光强度的基础上报告表达的相对值,而由于RNA-seq能够一边读取一边对转录本进行计数,它能够直接测出转录本的丰度。总的来说,RNA-seq不仅能够揭示转录本结构和剪切事件,还能够识别融合基因、等位基因特异性突变等等。
随着RNA-seq技术的逐渐普及,自然也出现了许多RNA-seq分析工具,而这些工具也逐步进入市场。不论是在前期的样品制备阶段还是实验末期的生物信息学分析阶段,您都能找到适合自己需要的工具。
RNA-Seq样品制备
Illumina产品市场主管Jeremy Preston介绍道,RNA-seq与其他二代测序技术的差异主要在于RNA。“你不能直接对RNA进行测序,必须先将其转换为DNA。这是RNA-seq区别与其他测序方法的关键阶段。”一旦得到了cDNA,剩下的就和其他测序一样了,Preston说,完全可以直接套用测序仪自带的文库制备方案。
例如Illumina’s TruSeq RNA Sample Preparation Kits试剂盒就能从总RNA生成测序文库。该试剂盒可以一次“indexing”(即条码)多至24个样本,这意味着HiSeq 2000的每次运行能够处理多达384个样本(每个通道lane容纳24个样本,共有16个通道)。Preston介绍道,现在正在研发新的indexing试剂,将会使每个通道容量增加到96个样本。
在典型表达图谱研究中,研究人员对每个样本进行转录组分析得到的读序约在一千万到两千万之间,这就意味着在一次满负荷HiSeq运行中(即三十亿读序)能够至少同时对100个样本进行分析,Preston说。如果要进行深入分析,例如鉴别新转录本或者罕见非编码转录本,每个样品可能需要五千万到一亿的读序,而每个Illumina通道仍足以容纳两个样本,“但这已经算是极端情况的研究了,”他说。
Illumina公司于2011年收购了Epicentre Biotechnologies,并由此大大扩充了RNA-seq产品线。其中就包括Ribo-Zero™ ribosomal RNA removal kits,该产品能够从样品中去除无关的高丰度转录本来增强灵敏度。此外,Illumina还提供能在一天内完成RNA-Seq文库制备的“无缝衔接,点对点”ScriptSeq™ Complete Kits。
其他测序仪供应商也同样有多种RNA-Seq试剂盒供应。Life Technologies公司的Ion Total RNA-Seq Kit v2含有构建代表性cDNA文库所需的一切,更能保留链信息,用于在Ion PGM测序仪上进行链特异性的RNA测序。据罗氏公司的市场经理Clotilde Teiling介绍,他们并没有为454 GS FLX和GS Junior系统提供专门的RNA-seq试剂盒,不过罗氏的cDNA合成系统试剂盒能够用于从RNA合成cDNA来制备文库。此外,您还可以选择安捷伦公司的SureSelect RNA Capture kit等第三方工具,来进行您的RNA-Seq实验。
NGS测序硬件
幸运的是,市面上的测序平台大多支持RNA-seq,Illumina、Roche/454和Life Technologies等大型测序仪供应商都使其产品硬件兼容RNA-seq应用。著名服务供应商,位于美国休斯敦的SeqWright公司就拥有Roche/454的454™ Titanium和GS-FLX+平台、Illumina的HiSeq™ 2000和MiSeq™平台以及Life Technologies公司的SOLiD™ 4、5500xl和Ion Torrent PGM™平台。该公司的用户可以选择在上述任意一种平台上进行他们的RNA-seq研究。
“每个平台都有各自的优劣,”SeqWright公司的Adam Pond解释道。“对于那种包括多种混合样本的大型项目,我们会选择在Illumina HiSeq上进行。而将Ion Torrent用于细菌转录组研究能够以最优价格获得最多数据。不过的确每个平台都能够进行RNA-seq。”
Marioni在工作中使用的是Illumina Genome Analyzer IIx。“我很自然就会想用这种技术来采集RNA-seq数据,”他说。这可能是因为该技术得到的读序非常多,能使其用户更深入的对转录组进行分析。实际上,Teiling也建议那些只想简单检测转录本量的454用户使用Illumina测序仪或者甚至采用DNA芯片,因为后者“仍然是衡量mRNA水平的一种好选择。”
不过,她也提到在454’s GS FLX平台上进行RNA-seq仍然有相当的用户基础,尤其是当研究者们希望利用非模式生物的转录组数据来进行初步基因组装配时。这是因为,尽管454读序数量较少但其读长能够达到700bp,能够轻松与参考基因组进行比对(如果存在参考基因组),也能方便地在样品之间相互比对。Teiling说,其生成的“isotigs”(RNA重叠群contigs)可以用于检测转录本结构和等位基因差异,识别新的剪切突变、基因多态性和融合基因等事件。
在2011年的一项研究中,454(包括Teiling)的研究人员就与康奈尔大学合作在GS FLX Titanium平台上对驯化和野性的银狐(这种哺乳动物的基因组DNA序列未知)进行了相互比较,随后又与家养犬基因组进行了比对。在研究过程中,他们 “识别了三万多个高度可信的银狐特异性SNP,以及与狗直系同源的14,000个银狐基因,并且发现在前额叶中驯化和野性银狐的基因表达存在重要差异。”
数据分析
目前,测序当然并不是难事,重点在于有效的数据分析。而RNA-seq这一新兴技术在这一方面还面临着一些障碍,Marioni说。其中之一就是数据分析并不容易,仅将读序与参考基因组相比对这一步,就需要“至少六十种算法,”他说。而多种多样或免费或商业化的数据分析工具更让人眼花缭乱,
总的来说,RNA-seq的数据分析与其他测序分析并不相同。基因组DNA测序的目的主要是组装基因组或者检测基因突变,而RNA-seq的目标往往是检测转录本的量。RNA-seq数据分析首先要将读序与参考序列比对,而这里就存在两种不同途径,与参考基因组比对或者与转录组比对。由于前者包含了剪切点信息,那么分析软件就必须要能够进行处理。
Marioni推荐的是分析RNA-seq数据的BOWTIE和BWA软件,以及一些类似的公开又免费的command-line工具,对计算机内行的研究者们可以将这些软件捆绑成为“pipelines”。当然,您也可以使用测序仪自带软件进行分析,或者干脆把分析工作外包给线上数据分析平台(如DNAnexus)或者SeqWright等服务供应商。
这类分析所得的结果通常是列出在实验中表达水平发生改变的基因,而从这张清单中得出怎样的结论,要选择哪些基因进行后续研究,就完全取决于用户了。“许多转化医学研究人员需要根据这些信息来决定后续实验,以便把研究的重心放在与所研究表型紧密相关的通路和生物标志上,”Ingenuity Systems公司的iReport™科学带头人Megan Laurance说,他们开发了iReport软件。
iReport是一个以网络为基础的分析软件,能够帮助研究人员识别其RNA-seq数据背后的相关生物学通路。Ingenuity Systems公司的知识库包含了来自生物医学文献和相关数据库的近五百万研究结果,而iReport软件就是在此基础上建立起来的,能够有效帮助用户识别关键基因和生物学过程。
“我们iReport的目标是为研究者们提供快速简单的数据分析工具,帮助用户了解RNA-seq数据中所包含的生物学信息,”Laurance说,花$495就可以得到一份这样的报告。
参考文献
[1] Perry, GH, et al., “Comparative RNA sequencing reveals substantial genetic variation in endangered primates,” Genome Res, 22:602-10, 2012.
[2] Kukekova, et al., “Sequence comparison of prefrontal cortical brain transcriptome from a tame and an aggressive silver fox (Vulpes vulpes),” BMC Genomics, 12:482, 2011.
参考来源:http://www.ebiotrade.com/newsf/2012-9/201297113503835.htm
1F
数据分析软件写的有点不清楚···,让我读了有点迷糊