1,简介:
文件后缀名:.sam
Bismark是一种基于Bowtie的分析BS-Seq(一种甲基化测序方法)数据的软件,包括read mapping和methylation calling。其中read mapping这一步就产生SAM文件;SAM(Sequence Alignment/Map)格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。
2,行、列、注释说明:
注释:以@开头的行
行:除注释外,每一行是一个read
列:
注:第一列到第十一列的信息与Bowtie产生的SAM文件(备注(2))大致相同,只有第6列不同:
Bismark还报道了次佳的比对。eg.71M1I13M
第十二列:NM-tag,与bowtie中NM:i相同。read string转换成reference string需要的最少核苷酸的edits:插入/缺失/替换
eg.NM:i:13
第十三列:XX-tag,对错配的描述,不包括indel(插入和缺失)
eg.XX:Z:2C4C2C6C1C1AC18C3C15C4C2CC14
表示2个碱基完全匹配,一个C替换,接着4个碱基完全匹配,一个C发生替换......
第十四列:XM-tag,methylation call string(备注(1))。
eg.XM:Z:..h....h..h......h.h..x......................x...............x....h..hx..............
第十五列:XR-tag,read conversion state for the alignment 。
共两种转换:CT和GA,GA就是指将read里的所有G转换成A
eg.XR:Z:CT
第十六列:XG-tag,genome conversion state for the alignment。
共两种:GA和CT。CT是指将全基因组上所有的C转换成T
eg.XG:Z:CT
3,应用举例:
SAM文件可以作为很多后续分析(如methylKit)的源文件,也可以从其中提取感兴趣的信息。
4,备注:
(1)methylation call string:
X:CHG上的C发生了甲基化
x:CHG上的C未发生甲基化
H:CHH上的C发生了甲基化
h:CHH上的C未发生甲基化
Z:CpG上的C发生了甲基化
z :CpG上的C未发生甲基化
. 不包含胞嘧啶的碱基(针对基因组序列)
(2)SAM格式-Bowtie2
请在本站搜索 SAM格式-Bowtie2,或者进入我的博客
http://wangxinyuhs.blog.163.com/blog/static/1836600462013419104847962/
5,参考文献
Bismark用户手册 http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide_v0.7.12.pdf
Bismark文献 http://bioinformatics.oxfordjournals.org/content/27/11/1571.short
bowtie2_manual http://computing.bio.cam.ac.uk/local/doc/bowtie2.html