地址:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/
里面主要有以下几个文件
我这里主要介绍gene2ensembl,gene2accession, gene2pubmed,gene2go,gene_info信息文件,它们的核心连接是gene的entrez ID号,了解了以下文件之后,可以把gene的entrez ID随意转换为ensembl的ID号,也可以随意转为基因名字,或者基因的通路信息。解压之后的大小如下:
一:第一个文件是gene2ensembl
第一列:物种ID号
第二列:gene的entrez ID号
第三列:Ensembl_gene ID号
第四列:RNA的NCBI索取号
第五列:RNA的Ensembl_ ID号
第六列:protein的NCBI索取号
第七列:protein的Ensembl_ ID号
一般,一个gene有多个蛋白
7227是果蝇的物种ID号,30970这个gene ID号对应两个转录本
第二个文件是gene2accession
第一列:物种ID号
第二列:gene的entrez ID号
第三列:status
第四列:RNA_nucleotide_accession.version,RNA_nucleotide_gi
第五列:protein_accession.version ,protein_gi
第六列:genomic_nucleotide_accession.version,genomic_nucleotide_gi
第七列:然后是start和end的pos坐标,还有正负链的标记
第八列:
第三个文件是 gene2pubmed
总共只有三列,分别是物种ID号,gene的entrez ID号,和对应的pubmed ID号
#Format: tax_id GeneID PubMed_ID (tab is used as a separator, pound sign – start of a comment)
其中一个物种里面有多个基因,一个基因会在多篇文献里面都有报道。
第四个文件是gene2go
主要看第三列的GO_ID与第四列的gene_name对应着
#Format: tax_id GeneID GO_ID Evidence Qualifier GO_term PubMed Category
其中一个物种里面有多个基因,一个基因会有多个GO通路
第五个文件是gene_info
主要是连接了gene的entrez ID与基因的俗名及其描述。
其中比较重要的是Homo_sapiens.gene_info 这个文件。
原文来自:http://www.bio-info-trainee.com/75.html