下载最新的蛋白相互作用数据库-STRING

2013/12/15来源：生信菜鸟团评论6,477

string数据库是PPI领域里面最完备已经最受欢迎的数据库了。如果直接在谷歌里面搜索PPI，映入眼帘就是string的官网，它们的主页现在是html5啦，比较精美： http://string-db.org/

下载最新的蛋白相互作用数据库-STRING-图片1

写的很霸气，近两亿的记录，不过一般大家只会关心一个物种，比如人，其实还不到一千万！

我们直接进入下载界面，找到人类的数据，人类的物种ID是9606.

下载最新的蛋白相互作用数据库-STRING-图片2

需要一定许可才能下载完整版本，我这里测试最上面那个公开版本数据！

数据很简单，就是protein protein score，共八百多万行记录，记录着string数据库搜集的所有可能以及可信的蛋白相互作用！但是它的蛋白ID是ENSEMBL的ID，所以需要转换成基因的ID，才能被大多数人使用，因为大家的研究单位一般是基因，所以蛋白相互作用略等于基因相互作用。

基因ID转换，我推荐用org.Hs.eg.db这个R的包，很容易就可以实现的！

> tmp=toTable(org.Hs.egENSEMBLPROT)
> dim(tmp)
[1] 110916      2
> head(tmp)
  gene_id         prot_id
1       1 ENSP00000263100
2       1 ENSP00000470909
3       2 ENSP00000443302
4       2 ENSP00000323929
5       2 ENSP00000438599
6       2 ENSP00000445717

转换好之后就可以上传到数据库啦，然后可以供其它可视化或者分析程序使用！有约500多个蛋白ID是无法转换成对应的基因的，这个很正常，毕竟这种ID本来就不稳定，很多用着用着就失效了！

原文来自：http://www.bio-info-trainee.com/1589.html

发表评论