1. WIG格式介绍
WIG格式(Wiggle Track Format),可用于将转录组数据进行可视化展示。bigWig格式则是WIG格式的二进制方式,可以使用wigToBigWig将WIG格式转换成BigWig格式。
一个 WIG 格式实例文件:
track type=wiggle_0 name="sampleA1" description="RNA-Seq read counts of species A" variableStep chrom=chr01 span=10 10001 13 10011 15 10021 12 fixedStep chrom=chr01 start=100031 step=10 span=10 17 15 20
如上例子,有2个注意点:
1. 第一行必须如理示例中格式。只有name和description这两个参数的值可以随意填写。 2. 有两种方法进行数据描述。分别是variableStep和fixedStep。前者数据内容用2行表示,后者数据部分仅用1行表示。 3. 这两种方法的几个参素意义为: chrom 设置序列名 start fixStep中Locus的起始位置 step fixStep中Locus的步进 span 一个数据对应碱基数目
2. 将Bam文件转换成WIG文件并进行压缩
使用bam2wig命令将bam文件转换成wig文件。bam2wig命令可以来自于Augustus软件。
$ bam2wig sampleA1.tophat.bam > sampleA1.wig
该wig文件的span参数值为1。因此,当基因组越大,则wig文件越大。可以考虑设置span的值为10,能有效减小wig文件的大小。例如编写如些perl程序进行压缩wig文件。
#!/usr/bin/perl use strict; my $usage = <<USAGE; Usage: perl $0 RNA-Seq.wig > RNA-Seq.cutdown.wig USAGE if (@ARGV==0){die $usage} open IN, $ARGV[0] or die $!; $_ = <>; print; my $locus = 1; my $count = 0; while () { if (m/^variableStep/) { $count = int(($count + 0.5) / 10); print "$locus\t$count\n" if $count > 0; s/$/ span=10/; print; $locus = 1; } else { if (m/(\d+)\s+(\d+)/) { my ($num1, $num2) = ($1, $2); if ($num1 >= $locus + 10) { $count = int(($count + 0.5) / 10); print "$locus $count\n" if $count > 0; $locus = $num1; $count = 0; } $count += $num2; } } }
3. 将wig文件转换成wig binary文件和一个gff3文件
使用Gbrowse2所带命令 wiggle2gff3.pl 将wig文件转换成wig binary文件和一个gff3文件。每个基因组序列得到一个二进制格式的wig文件。同时生成一个gff3文件。该gff3文件指向所有的wig binary文件。
$ mkdir $PWD/gbrowse_track_of_RNA_seq $ wiggle2gff3.pl --source=sampleA1 --method=RNA_Seq --path=$PWD/gbrowse_track_of_RNA_seq --trackname=track_A1 sampleA1.wig > sampleA1.gff3
4. 导入gff3文件到数据库,并配置Gbrowse配置文件
导入gff3文件
$ bp_seqfeature_load.pl -a DBI::mysql -d gbrowse2_species -u train -p 123456 sampleA1.gff3
配置文件:
[RNA_Seq_sampleA1_xyplot] feature = RNA_Seq:sampleA1 glyph = wiggle_xyplot graph_type = boxes height = 50 scale = right description = 1 category = RNA-Seq:sampleA1 key = Transcriptional Profile [RNA_Seq_sampleA1_density] feature = RNA_Seq:sampleA1 glyph = wiggle_density height = 30 bgcolor = blue description = 1 category = RNA-Seq:sampleA1 key = Transcriptional Profile
原文来自:http://www.chenlianfu.com/?p=2366