第一步:利用BLAST作比对
下载NCBI的nr数据库
NCBI的nr数据库一般可以从ftp://ftp.ncbi.nih.gov/blast/db/ 下载,里面nr库有两种格式,一种是原始的nr蛋白序列,另外一种是经过formatdb处理过的,下面介绍的是下载已经formatdb过的序列:
wget ftp://ftp.ncbi.nih.gov/blast/db/nr.00.tar.gz
wget ftp://ftp.ncbi.nih.gov/blast/db/nr.01.tar.gz
wget ftp://ftp.ncbi.nih.gov/blast/db/nr.02.tar.gz
wget ftp://ftp.ncbi.nih.gov/blast/db/nr.03.tar.gz
wget ftp://ftp.ncbi.nih.gov/blast/db/nr.04.tar.gz
将nr.*解压缩,解压缩完之后就可以直接使用。
tar -zxvf nr.00.tar.gz tar -zxvf nr.01.tar.gz tar -zxvf nr.02.tar.gz tar -zxvf nr.03.tar.gz tar -zxvf nr.04.tar.gz
使用blastx做alignment (nr database是protein)
blastall -p blastx -i input_filename -d nr -e 1e-6 -m 7 -o output_filename
<备注一> 由于annotation的input file的格式须为.xml档,所以output format 须设为 7 。
<备注二> 目前做annotation的blast e-value threshold 均设为1e-6。
<备注三>由于nr数据库很大,所以建议运行的时候根据系统cpu数据加上参数 -a 4,表示用4个cpu同时运算,
第二步:安裝B2G4PIPE
下载B2G4PIPE (http://www.blast2go.org/downloads)
wget http://www.blast2go.org/_media/b2g4pipe235.tar.gz
解压缩B2G4PIPE
tar -zxvf b2g4pipe235.tar.gz
第三步:安装blast2GO的local database
先到NCBI的網站下載GO的database
wget http://archive.geneontology.org/latest-full/go_<YYYYMM>-assocdb-data.gz <其中YYYY是年分,MM是月份>
wget ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz
wget ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2accession.gz
wget ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz
下载Local Blast2GO Database Installation 的相关资料 (from http://www.blast2go.org/localgodb)
wget http://www.blast2go.org/_media/local_b2g_db_tutorial_0809.tar.gz
解压缩文件
gzip -d go_201105-assocdb-data.gz
gzip -d gene_info.gz
gzip -d gene2accession.gz
gzip -d idmapping.tb.gz
tar -zxvf local_b2g_db_tutorial_0809.tar.gz
建立db的table
mysql -h$dbhost -u$dbuser -p$dbpass $dbname < b2g_db.sql
将数据导入到the GO Database
mysql -h$dbhost -u$dbuser -p$dbpass $dbname < go_201105-assocdb-data
mysql -h$dbhost -u$dbuser -p$dbpass $dbname -e"LOAD DATA LOCAL INFILE '$path"/gene2accession"' INTO TABLE gene2accession FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';"
mysql -h$dbhost -u$dbuser -p$dbpass $dbname -e"LOAD DATA LOCAL INFILE '$path"/gene_info"' INTO TABLE gene_info FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';"
This is server sided and works only with mysql file previleges
mysqlimport -h$dbhost -u$dbuser -p$dbpass $dbname --fields-terminated-by='\t' /your/path/to/gene2accession
mysqlimport -h$dbhost -u$dbuser -p$dbpass $dbname --fields-terminated-by='\t' /your/path/to/gene_info
Alternatively you can download the latest blast2go4pipe distribution and start the import form the command line
java -cp ./your/path/to/blast2go.jar:./your/path/to/b2g/ext/mysql-connector-java-3.0.11-stable-bin.jar es.blast2go.prog.util.ImportPIR idmapping.tb localhost b2g $dbuser $dbpass
第四步:运行b2gPipe
修改b2gPipe.properties里面的资料
Dbacces.dbhost=localhost
Dbacces.dbname=b2g
Dbacces.dbuser=使用者用户名
Dbacces.dbpasswd=使用者密码
开始annotation
java -jar blast2go.jar -in alignment_result.xml -a -v -out annot_result
使用UniGene做Annotation
基因注解可透过其他物种已知的基因来协助,一个途径是透过NCBI的Unigene,这是一个关于mRNA、EST、transcript的资料库。可从其FTP站下载许多物种的transcript。
植物界的基因注释,由于Arabidopsis和rice注释信息比较完整。以Arabidopsis为例,可以透过blast把定序出来的mRNA与 Arabidopsis的transcripts, 做alignment即可得到初步的信息
wget ftp://ftp.ncbi.nih.gov/repository/UniGene/Arabidopsis_thaliana/At.seq.uniq.gz
cat At.seq.uniq | cut -f 3-6 -d '=' | cut -f 2 -d '.' | cut -f 1 -d ' ' | sed 's/\([0-9]\)/>At.\1/'
makeblastdb -in At.seq.uniq.trim -dbtype 'nucl' -hash_index -parse_seqids -out At
blastn -query Total_Contigs.seq -db At -task dc-megablast -evalue 0.0001 -outfmt 6 -out Bamboo.At.unigene
1F
我正在安装blast2go的localdatabase,就差最后一步将idmapping.tb导入;
我输入命令行:
$ time java -Xms4G -Xmx10G -cp /home/bio/b2g4pipe/blast2go.jar:/home/bio/blast2go/b2g4pipe/ext/mysql-connector-java-3.0.11-stable-bin.jar es.blast2go.prog.util.ImportPIR ‘/home/bio/blast2go1/idmapping.tb’ ‘localhost’ ‘b2g’ ‘dan’ ‘*****’ 1
系统提示错误:
Starting to import /home/bio/blast2go1/idmapping.tb to b2g@localhost with user dan
Database or network connection (timeout) error for: localhost
Database or network connection (timeout) error for: localhost
Import gi-uniprot mapping: Could not connect to DB
Could not connect to DB
Import of gi-uniprot mapping finished
后来将‘localhost’改成了本机的IP地址,又出现错误:
Starting to import /home/bio/blast2go1/idmapping.tb to b2g@127.0.0.1 with user dan
Database or network connection (timeout) error for:127.0.0.1
Database or network connection (timeout) error for:127.0.0.1
Import gi-uniprot mapping: Could not connect to DB
Could not connect to DB
Import of gi-uniprot mapping finished
请问楼主,这有什么原因导致的?有什么办法可以解决?
期待您的回复!!
2F
Database or network connection (timeout)
目测是没有开启MySQL
3F
请问b2g4pipe不能下载了吗?能否分享下压缩包,感谢