NCBI的基因entrez ID相关文件介绍

地址:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

里面主要有以下几个文件

NCBI的基因entrez ID相关文件介绍-图片1

我这里主要介绍gene2ensembl,gene2accession, gene2pubmed,gene2go,gene_info信息文件,它们的核心连接是gene的entrez ID号,了解了以下文件之后,可以把gene的entrez ID随意转换为ensembl的ID号,也可以随意转为基因名字,或者基因的通路信息。解压之后的大小如下:

NCBI的基因entrez ID相关文件介绍-图片2

一:第一个文件是gene2ensembl

NCBI的基因entrez ID相关文件介绍-图片3

NCBI的基因entrez ID相关文件介绍-图片4

第一列:物种ID号

第二列:gene的entrez ID号

第三列:Ensembl_gene ID号

第四列:RNA的NCBI索取号

第五列:RNA的Ensembl_ ID号

第六列:protein的NCBI索取号

第七列:protein的Ensembl_ ID号

一般,一个gene有多个蛋白

7227是果蝇的物种ID号,30970这个gene ID号对应两个转录本

 

第二个文件是gene2accession

NCBI的基因entrez ID相关文件介绍-图片5

第一列:物种ID号

第二列:gene的entrez ID号

第三列:status

第四列:RNA_nucleotide_accession.version,RNA_nucleotide_gi

第五列:protein_accession.version ,protein_gi

第六列:genomic_nucleotide_accession.version,genomic_nucleotide_gi

第七列:然后是start和end的pos坐标,还有正负链的标记

第八列:

第三个文件是 gene2pubmed

NCBI的基因entrez ID相关文件介绍-图片6

总共只有三列,分别是物种ID号,gene的entrez ID号,和对应的pubmed ID号

#Format: tax_id GeneID PubMed_ID (tab is used as a separator, pound sign – start of a comment)

其中一个物种里面有多个基因,一个基因会在多篇文献里面都有报道。

第四个文件是gene2go

NCBI的基因entrez ID相关文件介绍-图片7

主要看第三列的GO_ID与第四列的gene_name对应着

#Format: tax_id     GeneID     GO_ID     Evidence         Qualifier         GO_term         PubMed         Category

其中一个物种里面有多个基因,一个基因会有多个GO通路

第五个文件是gene_info      

主要是连接了gene的entrez ID与基因的俗名及其描述。

其中比较重要的是Homo_sapiens.gene_info 这个文件。

原文来自:http://www.bio-info-trainee.com/75.html

发表评论

匿名网友

拖动滑块以完成验证