什么是WGCNA分析?
WGCNA分析的全称是加权基因共表达网络分析(Weighted correlation network analysis),是用来描述不同样品之间基因关联模式的生物信息学分析方法。可将表达模式相似的基因进行聚类,并分析模块与特定性状或表型之间的关联关系。
WGCNA分析的基础知识点
1、WGCNA分析的适用范围?
目前该分析方法在抗病胁迫以及其他性状与基因关联分析等方面的研究中被广泛应用,主要应用于转录表达方面的研究,如转录组测序、蛋白质组测序等。
2、WGCNA分析对样本数量的要求?
一般来说需要至少15个样品以上,这个是包含了生物学重复的(如5个点,各3个重复)。当然,样品数量越多,结果会越准确。
3、不同批次的测序数据可以放在一起进行WGCNA分析么?
理论上是可以的,但是一般不建议放在一块分析。这是由于测序存在批次效应,不同批次的测序结果会存在一些差异,这会给分析带来一定的误差。
4、同一批测序,相同的材料不同的处理,比如盐处理和干旱处理的数据可以放在一块进行WGCNA分析么?
答案是可以的。通过WGCNA分析可以找出不同处理间的共同表达模式和关键的基因。
5、什么是hub gene?
通过WGCNA分析可以构建一个调控网络,而位于调控网络中心的基因被称为核心基因,即hub gene,这类基因通常是关键的调控基因,是值得我们深入挖掘和分析的对象。
6、进行WGCNA分析时,使用差异基因还是所有有表达的基因?
具体问题具体分析,不同的分析目的需要选用不同的基因集来进行分析。在分析的过程中,需要根据情况对所使用的基因集进行过滤,以达到分析目的。
7、modules数量多少时结果较为理想?
这一点没有特定要求,我们可以通过树的分支是否清晰来评价结果的好坏。modules的数量是由样品本身的情况决定的。
8、选择几个表型来进行分析最好?
理论上表型数据越多结果越好,但是不同的实验设计也有不同的分析要求。有时候一个表型的结果也会很漂亮。
9、生物学重复间的3个样本是当成一个样本来分析,还是当做3个独立的样本来分析?
做WGCNA分析时,每个样品都是独立的,3个重复就要按照3个重复来进行分析。
10、进行WGCNA分析时,怎么对所选用的基因进行过滤?
一般来说,我们会把表达量较低,且在各个样本中变化不大的基因过滤掉。