GSEA结果解读

2018/02/10来源：Y大宽评论4,246

1 Enrichment score（ES）

ES是GSEA最初的结果，反应全部杂交data排序后，在此序列top或bottom富集的程度。
ES原理：扫描排序序列，当出现一个功能集中的gene时，增加ES值，反之减少ES值，所以ES是个动态值。最终ES的确定是讲杂交数据排序序列所在位置定义为0，ES值定义为距离排序序列的最大偏差.
ES为正，表示某一功能gene集富集在排序序列前方
ES为负，表示某一功能gene集富集在排序序列后方。
图中的最高点为此通路的ES值，中间表示杂交数据的排序序列。竖线表示此通路中出现的芯片数据集中的gene。

2 NES

由于ES是根据分析的数据集中的gene是否在一个功能gene set中出现来计算的，但各个功能gene set中包含的gene数目不同，且不同功能gene set与data之间的相关性也不同，因此，比较data set在不同功能gene set中的富集程度要对ES进行标准化处理，，也就是NES
NES=某一功能gene set的ES/数据集所有随机组合得到的ES平均值
NES是主要的统计量。

3 FDR

NES确定后，判断其中可能包含的错误阳性发现率。FDR=25%意味着对此NES的确定，4次可能错 1次。GSEA结果中，高亮显示FDR<25%的富集set。因为从这些功能gene中最可能产生有意义的假设，促进进一步研究。大多数情况下，选FDR<25%是合适的，但是，假如分析的芯片data set较少，选择的是探针随机组合而不是表型组合，若p不严格，那么应该选FDR<5%。
一般而言，NES绝对值越大，FDR值就越小，说明富集程度高，结果可靠。

4 名义p值 nominal p-value

描述的是针对某一功能gene子集得到的富集得分的统计显著性，显然，p越小，富集性越好。

以上4个参数中，只有FDR进行了功能gene子集大小和多重假设检验矫正，而p值没有，因此，如果结果中有一个高度富集的功能gene子集，而其有很小的名义p-value和大的FDR意味着富集并不显著。

我的一个具体结果解读：

92/681 gene sets are upregulated in PH
0 gene sets are significantly enriched at FDR<25%
1 gene sets are significantly enriched at n p-value <1%
1 gene sets are significantly enriched at n p-value <5%

在选择的BP中，有681个gene sets，92个PH中上调，其中75%的正确率支持0条子集上调，1个BP的gene表达上调名义p值<0.01。总体结果并不理想。

备注

GSEA富集结果太少说明：

无gene set被富集。
可能是因为分析的样本太少，关注的生物信息太微弱，或正在分析的功能集不能很好代表你所关心的生物过程，但仍然可以看下top ranked gene sets，这些信息可能会为你的假说提供微弱的证据。当然也可以尝试考虑分析其他gene sets，或增加samples

GSEA富集结果太多说明：

太多的功能子集被富集了。
可能是因为很多的gene sets代表同一生物信号，这可以在gene sets中查看leading edge sbusets来查看。或者也可以查看具体区别进行加工，比如samples来自不同labs，操作者不一样等。