在做生物信息分析的时候经常会遇到一种尴尬的问题就是不同来源或者版本的注释文件里面,基因名称不一致。譬如P53,其实它的标准名称为TP53。CXCR4的曾用名有一堆,CD184, D2S201E, FB22, HM89, HSY3RR, LAP-3, LAP3, LCR1, LESTR, NPY3R, NPYR, NPYRL, NPYY3R, WHIM, WHIMS。那有没有办法可以批量查找和对应各种基因的曾用名或者旧版本的名称呢?答案是有的。
下面有几种方法或者来源的数据可以解决这个问题。
方法一:使用homer数据
安装homer之后在它的安装目录下面会有data/accession这个目录,里面human2gene.tsv和human.description就是人的各种基因的名称对应表。mouse2gene.tsv和mouse.description是小鼠的各种历史版本的基因对应表。
方法二:NCBI数据
从ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/ 这里可以下载个物种的基因信息。
譬如:
人的所有基因信息:
ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz
小鼠的所有基因信息:
ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Mus_musculus.gene_info.gz
方法三:各种标准数据库
例如:人可以使用HGNC这个数据库,他的全称HUGO Gene Nomenclature Committee。访问这里https://www.genenames.org/download/custom/,来选择自己关心的信息。或者来这个地方https://www.genenames.org/download/statistics-and-files/下载所有你需要的信息。
小鼠的相关信息可以来MGI下载,具体可以自己探索一下:http://www.informatics.jax.org/mgihome/nomen/