通过WIG格式将转录组数据展示到Gbrowse2中

1. WIG格式介绍

WIG格式(Wiggle Track Format),可用于将转录组数据进行可视化展示。bigWig格式则是WIG格式的二进制方式,可以使用wigToBigWig将WIG格式转换成BigWig格式。

一个 WIG 格式实例文件:

  1. track type=wiggle_0 name="sampleA1" description="RNA-Seq read counts of species A"
  2. variableStep chrom=chr01 span=10
  3. 10001 13
  4. 10011 15
  5. 10021 12
  6. fixedStep chrom=chr01 start=100031 step=10 span=10
  7. 17
  8. 15
  9. 20

如上例子,有2个注意点:

  1. 1. 第一行必须如理示例中格式。只有namedescription这两个参数的值可以随意填写。
  2. 2. 有两种方法进行数据描述。分别是variableStepfixedStep。前者数据内容用2行表示,后者数据部分仅用1行表示。
  3. 3. 这两种方法的几个参素意义为:
  4. chrom 设置序列名
  5. start fixStepLocus的起始位置
  6. step fixStepLocus的步进
  7. span 一个数据对应碱基数目

2. 将Bam文件转换成WIG文件并进行压缩

使用bam2wig命令将bam文件转换成wig文件。bam2wig命令可以来自于Augustus软件。

  1. $ bam2wig sampleA1.tophat.bam > sampleA1.wig

该wig文件的span参数值为1。因此,当基因组越大,则wig文件越大。可以考虑设置span的值为10,能有效减小wig文件的大小。例如编写如些perl程序进行压缩wig文件。

  1. #!/usr/bin/perl
  2. use strict;
  3.  
  4. my $usage = <<USAGE;
  5. Usage:
  6. perl $0 RNA-Seq.wig &gt RNA-Seq.cutdown.wig
  7. USAGE
  8. if (@ARGV==0){die $usage}
  9.  
  10. open IN, $ARGV[0] or die $!;
  11.  
  12. $_ = <>;
  13. print;
  14.  
  15. my $locus = 1;
  16. my $count = 0;
  17. while () {
  18. if (m/^variableStep/) {
  19. $count = int(($count + 0.5) / 10);
  20. print "$locus\t$count\n" if $count > 0;
  21. s/$/ span=10/;
  22. print;
  23. $locus = 1;
  24. }
  25. else {
  26. if (m/(\d+)\s+(\d+)/) {
  27. my ($num1, $num2) = ($1, $2);
  28. if ($num1 >= $locus + 10) {
  29. $count = int(($count + 0.5) / 10);
  30. print "$locus $count\n" if $count > 0;
  31. $locus = $num1;
  32. $count = 0;
  33. }
  34. $count += $num2;
  35. }
  36. }
  37. }

3. 将wig文件转换成wig binary文件和一个gff3文件

使用Gbrowse2所带命令 wiggle2gff3.pl 将wig文件转换成wig binary文件和一个gff3文件。每个基因组序列得到一个二进制格式的wig文件。同时生成一个gff3文件。该gff3文件指向所有的wig binary文件。

  1. $ mkdir $PWD/gbrowse_track_of_RNA_seq
  2. $ wiggle2gff3.pl --source=sampleA1 --method=RNA_Seq --path=$PWD/gbrowse_track_of_RNA_seq --trackname=track_A1 sampleA1.wig > sampleA1.gff3

4. 导入gff3文件到数据库,并配置Gbrowse配置文件

导入gff3文件

  1. $ bp_seqfeature_load.pl -a DBI::mysql -d gbrowse2_species -u train -p 123456 sampleA1.gff3

配置文件:

  1. [RNA_Seq_sampleA1_xyplot]
  2. feature = RNA_Seq:sampleA1
  3. glyph = wiggle_xyplot
  4. graph_type = boxes
  5. height = 50
  6. scale = right
  7. description = 1
  8. category = RNA-Seq:sampleA1
  9. key = Transcriptional Profile
  10.  
  11. [RNA_Seq_sampleA1_density]
  12. feature = RNA_Seq:sampleA1
  13. glyph = wiggle_density
  14. height = 30
  15. bgcolor = blue
  16. description = 1
  17. category = RNA-Seq:sampleA1
  18. key = Transcriptional Profile

原文来自:http://www.chenlianfu.com/?p=2366

发表评论

匿名网友

拖动滑块以完成验证
加载失败