全基因组关联分析GWAS:Genome-Wide Association Study;
基本概念:利用分布于全基因组范围内的分子标记,基于它们与分析性状的连锁不平衡关系,通过各种统计分析方法,以获得与这些性状关联的候选基因或基因组区域。
基本原理(以SNP分子标记为例):
1.在一定群体中选择病例组和对照组(对于数量性状则可以是连续分布的群体),比较全基因组范围内所有SNP位点的等位基因或者基因型频率在病例组和对照组间的差异,如果某个SNP位点的等位基因或基因型在病例组中出现的频率明显高于或低于对照组,则认为该位点与疾病间存在关联性
2.根据该位点在基因组中的位置和连锁不平衡关系推测可能的疾病易感基因.
全基因组预测:Genomic Prediction
基本概念:Genomic prediction exploits historical genotypic and phenotypic datato predict performance of on selection candidates based only on theirgenotypes, attempting to predict phenotypic variation from genomic information.
基本原理
1.首先,建立一个参考群体(Reference Population),对参考群体的所有个体进行表型和全基因组的基因型测定,通过关联分析估计出每个标记的效应值(Marker Effect);
2.然后,根据上一步得到的标记效应值对没有表型记录但有基因型信息的预测群体(Inference Population)直接估计出他们的基因组育种值(Genomic Breeding Value, GBV)。
样本选择:原则上越多越好,至少上千
● SNP获取:芯片或者测序
● 数据质控:
SNP水平:
- MAP<0.01(or 0.05)剔除;
- 不符合Hardy-Weinberg平衡剔除;
- Callrate < 90% (or 95%)剔除。
个体水平:
基因型缺失大于10% (or 5%、15%、20%)的个体剔除。
1、关联分析模型
一般线性模型(GeneralLinear Model):y = Xα + Zβ + e
混合线性模型(Mixed Linear Model):y = Xα+ Zβ + Wμ+ e
y:所要研究的表型性状;
Xα:固定效应(FixedEffect),影响y的其他因素,包括群体结构、性别、年龄等因素;
Zβ:标记效应(MarkerEffect);
Wμ:随机效应(RandomEffect),这里一般指个体的亲缘关系。
2、关联分析统计方法
● Bayes:Bayes A、Bayes B、Bayes C、Bayes Cpi
统计软件:GenSel、GenABEL,均为R程序包。
● CMLM (Compressed Linear Mixed Model)
统计软件:GAPIT、TASSEL
●EMMAX (Efficient Mixed Model Association)
统计软件:emmax
● GBLUP(Genomic Best Linear Unbiased Prediction):专门用于Genomic prediction
统计软件:ASReml
3、关联分析中群体分层校正
校正方法:
● 基因组对照法
(Genome Control)
● 结构关联法
(Structured Association)
● 主成分分析法
(Principal Component Analyses)
群体分层检验:Q-Qplot
2.3 GWAS多重检验校正
Bonferroni校正法:将单个假设检验得到的每个位点的P值乘以本研究中同时进行假设检验的次数(即乘以所选择的遗传标记数量),如果校正后的P值仍然小于0.05,可判断改位点与疾病之间的关联有显著性。
递减调整法(Step-DownAdjustment):首先将最小的P值乘以所选择的位点数目m,排列在第二的P值乘以(m-1),其他的P值依次乘以(m-1),(m-3),依次类推,排在最后的P值乘以1,校正后的P<0.05的位点可认为与疾病的关联有显著性。
控制错误发现率(False discoveryrate)法:首先将未校正的P值从小到大排序,最大的P值保持不变,其他的P值依次乘以系数(位点总数/该P值的位次),校正后的P<0.05的位点可认为与疾病的关联有显著性。。
2.4 Genomic prediction预测公式结果验证
交叉验证法:采用Jackknife法,即每次抽出一定数量(一个或多个)个体作为验证个体,剩余部分作为参考群体,建立新的公式来预测验证个体的基因组育种值。
独立验证法:指对与参考群体没有关系的群体,采用基于参考群体得到的预测公式俩计算他们的基因组育种值。
预测准确性:线性回归,R2越大,准确性越高。如图,a>b
2.5 影响GWAS& Genomic Prediction准确性因素
1.样本大小 2.标记类型(e.g. SNP 或者单体型) 3.连锁不平衡程度 4.不同统计方法