1. WIG格式介绍
WIG格式(Wiggle Track Format),可用于将转录组数据进行可视化展示。bigWig格式则是WIG格式的二进制方式,可以使用wigToBigWig将WIG格式转换成BigWig格式。
一个 WIG 格式实例文件:
- track type=wiggle_0 name="sampleA1" description="RNA-Seq read counts of species A"
- variableStep chrom=chr01 span=10
- 10001 13
- 10011 15
- 10021 12
- fixedStep chrom=chr01 start=100031 step=10 span=10
- 17
- 15
- 20
如上例子,有2个注意点:
- 1. 第一行必须如理示例中格式。只有name和description这两个参数的值可以随意填写。
- 2. 有两种方法进行数据描述。分别是variableStep和fixedStep。前者数据内容用2行表示,后者数据部分仅用1行表示。
- 3. 这两种方法的几个参素意义为:
- chrom 设置序列名
- start fixStep中Locus的起始位置
- step fixStep中Locus的步进
- span 一个数据对应碱基数目
2. 将Bam文件转换成WIG文件并进行压缩
使用bam2wig命令将bam文件转换成wig文件。bam2wig命令可以来自于Augustus软件。
- $ bam2wig sampleA1.tophat.bam > sampleA1.wig
该wig文件的span参数值为1。因此,当基因组越大,则wig文件越大。可以考虑设置span的值为10,能有效减小wig文件的大小。例如编写如些perl程序进行压缩wig文件。
- #!/usr/bin/perl
- use strict;
- my $usage = <<USAGE;
- Usage:
- perl $0 RNA-Seq.wig > RNA-Seq.cutdown.wig
- USAGE
- if (@ARGV==0){die $usage}
- open IN, $ARGV[0] or die $!;
- $_ = <>;
- print;
- my $locus = 1;
- my $count = 0;
- while () {
- if (m/^variableStep/) {
- $count = int(($count + 0.5) / 10);
- print "$locus\t$count\n" if $count > 0;
- s/$/ span=10/;
- print;
- $locus = 1;
- }
- else {
- if (m/(\d+)\s+(\d+)/) {
- my ($num1, $num2) = ($1, $2);
- if ($num1 >= $locus + 10) {
- $count = int(($count + 0.5) / 10);
- print "$locus $count\n" if $count > 0;
- $locus = $num1;
- $count = 0;
- }
- $count += $num2;
- }
- }
- }
3. 将wig文件转换成wig binary文件和一个gff3文件
使用Gbrowse2所带命令 wiggle2gff3.pl 将wig文件转换成wig binary文件和一个gff3文件。每个基因组序列得到一个二进制格式的wig文件。同时生成一个gff3文件。该gff3文件指向所有的wig binary文件。
- $ mkdir $PWD/gbrowse_track_of_RNA_seq
- $ wiggle2gff3.pl --source=sampleA1 --method=RNA_Seq --path=$PWD/gbrowse_track_of_RNA_seq --trackname=track_A1 sampleA1.wig > sampleA1.gff3
4. 导入gff3文件到数据库,并配置Gbrowse配置文件
导入gff3文件
- $ bp_seqfeature_load.pl -a DBI::mysql -d gbrowse2_species -u train -p 123456 sampleA1.gff3
配置文件:
- [RNA_Seq_sampleA1_xyplot]
- feature = RNA_Seq:sampleA1
- glyph = wiggle_xyplot
- graph_type = boxes
- height = 50
- scale = right
- description = 1
- category = RNA-Seq:sampleA1
- key = Transcriptional Profile
- [RNA_Seq_sampleA1_density]
- feature = RNA_Seq:sampleA1
- glyph = wiggle_density
- height = 30
- bgcolor = blue
- description = 1
- category = RNA-Seq:sampleA1
- key = Transcriptional Profile
原文来自:http://www.chenlianfu.com/?p=2366