bismark 识别甲基化位点

bismark中,根据甲基化的C所处的上下文环境,分成以下3类;

  1. CpG
  2. CHG
  3. CHH

p代表磷酸二酯键,CpG指的是甲基化的C的下游是1个G碱基。H代表除了G碱基之外的其他碱基,即A, C, T中的任意一种,CHG代表甲基化的C下游的2个碱基是HG, CHH表示甲基化的C下游的两个碱基都是H

bismark 识别甲基化位点-图片1

bismark 比对完之后,会生成1个bam 文件。使用bismark_methylation_extractor命令可以从bam 文件中识别到甲基化的C,命令如下

  1. bismark_methylation_extractor comprehensive test/test_data_bismark_bt2.bam

只有1个参数,这个bam 文件是bimark比对生成的bam文件,每个样本一个bam文件。

默认情况下,软件会自动根据两个因素生成结果文件

  1. 甲基化的C的类型
    就是前面提到的CpG, CHG, CHH 3种类型
  2. 比对情况
    包括比对到四条链上OT, OB, CTOT, CTOB 4种情况
    所以会生成 3 X 4 = 12 个文件,对于链特异性文库来说,会生成3 X 2 = 6 个文件,这6个文件内容是类似的,都是记录了甲基化的C的染色体位置。

comprehensive选项的作用就是在生成最终文件时,只考虑3种甲基化类型,将所有的比对情况进行合并,这样最终只会生成3个文件.

  1. CpG_context_test_data_bismark_bt2.txt
  2. CHG_context_test_data_bismark_bt2.txt
  3. CHH_context_test_data_bismark_bt2.txt

CpG_context_test_data_bismark_bt2.txt为例,内容如下:

  1. Bismark methylation extractor version v0.19.0
  2. SRR15024317_length=86   -       1       57798691        z
  3. SRR15024319_length=86    +       2       10166600        Z
  4. SRR15024331_length=86  +       11      77736289        Z
  5. SRR15024338_length=86  +       3       197272186       Z

共5列,第一列为比对上的序列ID,第二列为基因组的正负链信息,第三列为染色体编号,第四列染色体上的位置,第5列为甲基化的C的状态。

不同字母表示不同的甲基化C:

  1. X 代表CHG中甲基化的C
  2. x  代笔CHG中非甲基化的C
  3. H 代表CHH中甲基化的C
  4. h  代表CHH中非甲基化的C
  5. Z  代表CpG中甲基化的C
  6. z  代表CpG中非甲基化的C
  7. U 代表其他情况的甲基化C(CN或者CHN)
  8. u  代表其他情况的非甲基化C (CN或者CHN)

对于CpG, 采用字母X的大小写来表征甲基化状态;对于CHG, 采用字母H的大小写来表征甲基化状态;对于CHH, 采用字母Z 的大小写来表征甲基化状态。

上面的文件是methylation calling 最直接的证据,但是对于甲基化水平的定量来说,缺少了相关信息。运行bismark_methylation_extractor时,除了生成上述文件之外,还会有下列3个文件

  1. test_data_bismark_bt2_splitting_report.txt
  2. test_data_bismark_bt2.M-bias.txt
  3. test_data_bismark_bt2.M-bias_R1.png

test_data_bismark_bt2_splitting_report.txt

记录了该样本甲基化的汇总信息

  1. Final Cytosine Methylation Report
  2. Total number of Cs analysed:    40348
  3. Total methylated Cs in CpG context:    1365
  4. Total methylated Cs in CHG context:    21
  5. Total methylated Cs in CHH context:    103
  6. Total C to T conversions in CpG context:    678
  7. Total C to T conversions in CHG context:    10076
  8. Total C to T conversions in CHH context:    28105
  9. C methylated in CpG context:    66.8%
  10. C methylated in CHG context:    0.2%
  11. C methylated in CHH context:    0.4%

test_data_bismark_bt2.M-bias.txt

定义了每一个甲基化位点的详细信息,%methylation就是我们定量常用的beta 值
部分文件内容如下

  1. CpG context
  2. position        count methylated        count unmethylated      % methylation   coverage
  3. 1       42      13      76.36   55
  4. 2       31      9       77.50   40

test_data_bismark_bt2.M-bias_R1.png

bismark 识别甲基化位点-图片2

双坐标轴图,左侧的纵轴代表甲基化比例,右侧的纵轴代表甲基化的数目,横坐标代表测序读长。

发表评论

匿名网友

拖动滑块以完成验证
加载失败