下载最新版的KEGG信息

打开官网:http://www.genome.jp/kegg-bin/get_htext?hsa00001%203101

http://www.genome.jp/kegg-bin/get_htext#A1 (这个好像打不开)

可以在里面找到下载链接

下载最新版的KEGG信息-图片1

下载得到文本文件,可以看到里面的结构层次非常清楚,

下载最新版的KEGG信息-图片2

C开头的就是kegg的pathway的ID所在行,D开头的就是属于它的kegg的所有的基因

A,B是kegg的分类,总共是6个大类,42个小类

grep ^A hsa00001.keg

AMetabolism

AGenetic Information Processing

AEnvironmental Information Processing

ACellular Processes

AOrganismal Systems

AHuman Diseases

也可以看到,到目前为止(2015年12月8日20:26:57),共有343个kegg的pathway信息啦

下载最新版的KEGG信息-图片3

接下来我们就把这个信息解析一下:

perl -alne ‘{if(/^C/){/PATH:hsa(\d )/;$kegg=$1}else{print “$kegg\t$F[1]” if /^D/ and $kegg;}}’ hsa00001.keg >kegg2gene.txt

这样就得到了

下载最新版的KEGG信息-图片4

但是我发现了一个问题,有些通路竟然是没有基因的,我不是很明白为什么?

C    04030 G protein-coupled receptors [BR:hsa04030]

C    01020 Enzyme-linked receptors [BR:hsa01020]

C    04050 Cytokine receptors [BR:hsa04050]

C    03310 Nuclear receptors [BR:hsa03310]

C    04040 Ion channels [BR:hsa04040]

C    04031 GTP-binding proteins [BR:hsa04031]

那我们来看看kegg数据库更新的情况吧。

首先我们看org.Hs.eg.db这个R包里面自带的数据

Date for KEGG data: 2011-Mar15

org.Hs.egPATH has 5869 entrez genes and 229 pathways

2015年八月我用的时候是 6901 entrez genes and 295 pathways

现在是299个通路,6992个基因

所以这个更新其实很缓慢的,所以大家还在用DAVID这种网络工具做kegg的富集分析结果也差不大!

详细信息见http://www.genome.jp/kegg/pathway.html

更新信息见:http://www.genome.jp/kegg/docs/upd_map.html

 

原文来自:http://www.bio-info-trainee.com/1188.html

发表评论

匿名网友

拖动滑块以完成验证