什么样的数据,数据制备为什么格式,保存为什么样的形式,GBrowse进行怎样的设置,基因组图谱上就可以展示出来了。
要展示什么样的数据?
基因组注释数据,比如contig的拼接关系、功能基因的注释、基因组序列的特征比如GC含量等,Blast比对结果,SNP,转录丰度等等,都可以使用GBrowse来展示这些数据。可以概括为两个位置之间如何,有什么。
数据制备的格式
或者应该说这里指的是数据交换格式,注释数据为GFF3格式,序列为fasta格式。对于GFF3有丰富的转换脚本,包括不同格式转换为GFF3格式,以及GFF3格式录入数据库脚本。
GBrowse访问数据的形式
GBrowse也不是直接访问GFF格式,而是需要导入数据库中,或者全部载入内存,成为更为结构化的、或者模式数据,以统一的数据库访问接口,供GBrowse调用数据,在GBrowse配置文件中,也就是对应的db_adaptor参数,看看官方的定义:
db_adaptor is the name of a Perl database adaptor module for accessing the sequence annotation database
目前GBrowse支持的接口包括:
- Bio::DB::SeqFeature::StoreGFF3格式支持的GBrowse官方推荐的数据库
- Bio::DB::Das::Chado GMOD支撑的通用的生物信息学数据库模式
- Bio::Das分布式注释系统
- Bio::DB::Das::BioSQL 一个通用的生物信息学数据库模式
- Bio::DB::GFF基于GFF2的数据库系统
每种接口支持的adaptor也不尽相同,比如 Bio::DB::SeqFeature::Store支持以下三种:
- memory内存,数据放到内存中,支持的数据量取决于系统的内存,通常建议feature记录数超过10,000时,就不要使用内存;
- DBI::mysql mysql数据库,通常存在的形式,也是默认的形式,也是为什么要装mysql的原因
- berkeleydb
GBrowse中的配置
可以在GBrowse.conf文件的,增减数据源,每一个数据源对应一个配置文件,配置文件中指明该数据源访问接口,已经主机、用户名等访问参数。
- ###############################################################################################
- #
- # DATASOURCE DEFINITIONS
- # One stanza for each configured data source
- #
- ###############################################################################################
- [yeast]
- description = Yeast chromosomes 1+2 (basic)
- path = yeast_simple.conf
- [yeast_advanced]
- description = Yeast chromosomes 1+2 (advanced)
- path = yeast_chr1+2.conf
- 访问接口的配置示例
- db_adaptor = Bio::DB::SeqFeature::Store
- db_args = -adaptor memory
- -dir '~/httpd-2.2/htdocs/gbrowse2/databases/volvox'
- db_adaptor = Bio::DB::SeqFeature::Store
- db_args = -adaptor dbi::mysql
- -dsn dbi:mysql:database=<database>;host=localhost
- -user <username>
- -pass <password>
mysql数据库的建立
可以使用 bp_seqfeature_load.pl 脚本创建和录入GFF3格式的数据。运行脚本前,先创建一个数据库,以及具有相应权限的访问用户。
- Usage: /usr/bin/bp_seqfeature_load.pl [options] gff_file1 gff_file2...
- Options:
- -d --dsn The database name (dbi:mysql:test)
- -s --seqfeature The type of SeqFeature to create (Bio::DB::SeqFeature)
- -a --adaptor The storage adaptor to use (DBI::mysql)
- -v --verbose Turn on verbose progress reporting
- --noverbose Turn off verbose progress reporting
- -f --fast Activate fast loading (only some adaptors)
- -T --temporary-directory Specify temporary directory for fast loading (/tmp)
- -c --create Create the database and reinitialize it (will erase contents)
- -u --user User to connect to database as
- -p --password Password to use to connect to database
- -S --subfeatures Turn on indexing of subfeatures (default)
- --nosubfeatures Turn off indexing of subfeatures
- -i --ignore-seqregion 忽视序列区域
- If true, then ignore ##sequence-region directives in the
- GFF3 file (default, create a feature for each region)
- -z --zip If true, database tables will be compressed to save space
命令示例:
重新创建
bp_seqfeature_load.pl -a DBI::mysql -d <db> -u <user> -p <passwd> --create *.gff3 *.fasta
带频率图
bp_seqfeature_load.pl -a DBI::mysql -d <db> -u <user> -p <passwd> --summary *.gff3
新版本的GBrowse,–summary好像是默认的,都会创建feature频率表
来源:http://boyun.sh.cn/bio/?p=1786