拿到转录组数据之后,很多人最关心的恐怕就是差异基因的富集分析了,它阐明了实验中样本差异在基因功能上的体现。
但有时候,我们在设计实验的时候就已经对某些特定功能的基因集特别关注了,那么如何分析这些基因集在实验不同比较组之间的表达情况呢?今天就给大家推荐个相关的分析方法。
基因集富集分析(GSEA)
GSEA(Gene Set Enrichment Analysis)是麻省理工和哈佛大学的broad institute 研究团队开发的一个针对基因表达数据进行分析的工具。
GSEA在对基因表达数据分析时,首先确定分析的目的,即选择MSigDB中的一个或多个功能基因集进行分析。然后基于基因表达数据与表型的关联度(也可以理解为表达量的变化)的大小进行排序,进而判断每个基因集内的基因是否富集于表型相关度排序后基因列表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。
GSEA的优势
常规的基因富集分析主要关注差异基因,也就是对差异基因进行功能富集分析,例如GO和KEGG,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能等有价值的信息。
GSEA 方法关注的不是有限几个发生显著改变的差异基因,而是关注检测基因的表达在定义的功能分组中是否有共同的表达趋势,是从另一个角度来解读生物学信息,以阐述其中的生物学意义。
GSEA结果讲解
GSEA分析结果最常见的是下图:
1、图最上面部分展示的是富集分数(ES, enrichment score)值计算过程,从左至右每到一个基因,计算出一个ES值,连成线。在最左侧或最右侧有一个特别明显的峰值就是基因集表型上的ES值。图中间部分每一条线代表基因集中的一个基因,及其在基因列表中的排序位置。
2、最下面部分展示的是基因与表型关联的矩阵,红色为与第一个表型(MUT)正相关,在MUT中表达高,蓝色与第二个表型(WT)正相关,在WT中表达高。
3、Leading-edge subset 对富集得分贡献最大的基因成员。若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。
4、FDR GSEA默认提供所有的分析结果,并且设定FDR<0.25为可信的富集,最可能获得有功能研究价值的结果。但如果样品数目少,而且选择了gene_set作为Permumation type则需要使用更为严格的标准,比如FDR<0.05。