NGS分析入门:设置运行环境

首先的问题的是,我们需要什么样的计算机。

关于硬件,

  1. 需要至少4G内存,最好可以达到16G以上内存;
  2. 至少500G硬盘空间。通常一个RNA-seq的数据量为20G左右,如果再加上分析之后的结果,可能达到50G,所以即使你有500G的空间,也分析不了几组数据。所以硬盘空间越多越好,比如说2TB或者使用高速网络存贮界质。
  3. CPU,至少2核。因为你在运行程序时,通常100%占到CPU,如果没有2核,计算机多半会假死在那里。如果有8核,或者以上更好。
  4. GPU,很多程序开始使用GPU运算,如果能有好的GPU显卡,也是推荐的,但不是必须的。

为了达到以上的条件,入门极的比如说Mac Pro。进阶级的就是独立server,高级的是supercomputer clusters,支持qsub之类的。或者可以购买云计算服务。

对于操作系统,在工作站方面,推荐Mac OS。它运行稳定,与LINUX同源。需要下载安装Xcode和wget就可以了。当然你还可以很方便的安装office办公软件,以及photoshop,AI等工具。最后安装好R/Bioconductor,就可以开始工作了。如果买了兼容机,可以安装上Linux/UNIX系统。它在安装上R/Bioconductor之后基本上就可以了。它的缺点是办公软件,绘图软件的安装。最差的就是Windows了。需要安装比如GCC编译器,make工具,mingw64, perl, zip/unzip, tar, wget, ghostscript等等。

有了软件及硬件,接下来的工作就是了解一些常识以武装你的大脑,这是整个运行环境中最重要的一环。首先,你需要学习了掌握UNIX常用命令,并且不反感字符界面。其次学会安装,设置及构建网络服务,比如apache的websever,以及mysql的数据库服务。第三安装及设置一个Galaxy。当然,第二步及第三步可能会有难度,可以先使用Galaxy本身的服务,但是它有很多限制,所以最好还是自己安装一个比较好。第四步,学习一门计算机语言,比如c, python, ruby, java等,还有一门脚本式语言工具,比如perl。第五步,学习使用R/Bioconductor。第六步,统计学。

至此,你的NGS分析环境就设置完成了。如果快的话,你可以两三个月就设置完成,达到起步的阶段,之后就是漫长的学习过程。慢的话,四年本科也不一定学到多少。

原文来自:http://pgfe.umassmed.edu/ou/archives/3030

发表评论

匿名网友

拖动滑块以完成验证