SAM格式-Bismark(简要说明)

评论6,639

1,简介:

文件后缀名:.sam

Bismark是一种基于Bowtie的分析BS-Seq(一种甲基化测序方法)数据的软件,包括read mapping和methylation calling。其中read mapping这一步就产生SAM文件;SAM(Sequence Alignment/Map)格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。

2,行、列、注释说明:

注释:以@开头的行

行:除注释外,每一行是一个read

列:

注:第一列到第十一列的信息与Bowtie产生的SAM文件(备注(2))大致相同,只有第6列不同:

Bismark还报道了次佳的比对。eg.71M1I13M

 

第十二列:NM-tag,与bowtie中NM:i相同。read string转换成reference string需要的最少核苷酸的edits:插入/缺失/替换

eg.NM:i:13

第十三列:XX-tag,对错配的描述,不包括indel(插入和缺失)

eg.XX:Z:2C4C2C6C1C1AC18C3C15C4C2CC14

表示2个碱基完全匹配,一个C替换,接着4个碱基完全匹配,一个C发生替换......

第十四列:XM-tag,methylation call string(备注(1))。

eg.XM:Z:..h....h..h......h.h..x......................x...............x....h..hx..............

第十五列:XR-tag,read conversion state for the alignment 。

共两种转换:CT和GA,GA就是指将read里的所有G转换成A

eg.XR:Z:CT

第十六列:XG-tag,genome conversion state for the alignment。

共两种:GA和CT。CT是指将全基因组上所有的C转换成T

eg.XG:Z:CT

 

3,应用举例:

SAM文件可以作为很多后续分析(如methylKit)的源文件,也可以从其中提取感兴趣的信息。

4,备注:

(1)methylation call string:

X:CHG上的C发生了甲基化

x:CHG上的C未发生甲基化

H:CHH上的C发生了甲基化

h:CHH上的C未发生甲基化

Z:CpG上的C发生了甲基化

z :CpG上的C未发生甲基化

. 不包含胞嘧啶的碱基(针对基因组序列)

(2)SAM格式-Bowtie2

请在本站搜索 SAM格式-Bowtie2,或者进入我的博客

http://wangxinyuhs.blog.163.com/blog/static/1836600462013419104847962/

5,参考文献

Bismark用户手册  http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide_v0.7.12.pdf

Bismark文献 http://bioinformatics.oxfordjournals.org/content/27/11/1571.short

bowtie2_manual  http://computing.bio.cam.ac.uk/local/doc/bowtie2.html

发表评论

匿名网友