使用高版本SMRT Analysis软件对Pacbio reads进行基因组De novo组装

1. SMRT Analysis简介

SMRT Analysis软件是由Pacbio Science公司开发的软件,现在是SMRT Link软件的一部分,用于对Pacbio Long Reads数据进行分析。其2.3版本仅能用于对Pacbio RSII测序仪获得的h5格式测序数据进行,该版本持续了较长一段时间。后来Pacbio测序仪增添Sequel平台后,SMRT Analysis软件更新到3.0,增加支持对Pacbio Sequel测序仪获得的bam格式数据进行分析。现在(2018.09.02)最新版本的SMRT Analysis到了5.1版本。

2. 下载并安装SMRT Link软件

将SMRT Link安装到CentOS 6.9系统中。安装软件前需要做一些准备:

  1. 首先,确定主机名是localhost并指向127.0.0.1IP地址。刚安装完毕的系统一般都满足此要求。
  2. 保证/etc/hosts文件中含有以下一行信息:
  3. 127.0.0.1 localhost
  4.  
  5. 其次,修改/etc/security/limits.conf文件,尾部增添如下4行:
  6. chenlianfu soft nproc 10240
  7. chenlianfu hard nproc 102400
  8. chenlianfu soft nofile 10240
  9. chenlianfu hard nofile 102400
  10. 注意chenlianfu是安装SMRT Analysis软件所使用的用户的用户名。
  11. 该步骤用于增加chenlianfu用户的权限,这是与SMRT软件较高的资源消耗和较多的并行化相关的。
  12. 此外,注意此步骤过后,从新登陆
  13.  
  14. 然后,修改/etc/sysconfig/iptables文件,增加5432PostGresql数据库需要)、90908243(软件网页端使用tomcat提供服务时需要90908423)端口。在该文件中正确的位置增加如下两行:
  15. -A INPUT -m state --state NEW -m tcp -p tcp --dport 5432 -j ACCEPT
  16. -A INPUT -m state --state NEW -m tcp -p tcp --dport 9090 -j ACCEPT
  17. -A INPUT -m state --state NEW -m tcp -p tcp --dport 8243 -j ACCEPT
  18. 然后重启防火墙,让修改生效:
  19. # /etc/init.d/iptables restart
  20.  
  21. 最后,启动PostGresql数据库。
  22. # /etc/init.d/postgresql initdb
  23. # /etc/init.d/postgresql start
  24. # chkconfig postgresql on

从Pacbio Science官网下载SMRT Link软件

  1. SMRT Link安装到 ~/biosoft 目录下
  2. $ mkdir ~/biosoft
  3. $ cd ~/biosoft
  4. $ wget https://downloads.pacbcloud.com/public/software/installers/smrtlink_5.1.0.26412.zip
  5. $ unzip smrtlink_5.1.0.26412.zip
  6. 要求输入密码,可以从下载该软件的网页中找到。
  7. $ ./smrtlink_5.1.0.26412.run
  8. 根据提示一步一步进行配置,基本都是直接使用默认值,按Enter键即可。
  9. 设置软件临时文件夹的时候,要选择一个较大分区所对应的目录。我将其设置为/home/chenlianfu/biosoft/tmp/smrtlink
  10. $ /home/chenlianfu/biosoft/smrtlink/admin/bin/services-start
  11. 启动SMRT Link软件。

3. 使用HGAP4进行基因组De novo组装

  1. 1. SMRT Link软件必须要在Chrome浏览器中打开。在Chrome浏览器中输入安装有SMRT Link软件机器的IP地址,并接:9090,例如:192.168.30.1:9090,就可以连接到软件的用户登陆界面,输入用户名admin,密码admin则会进入软件。
  2.  
  3. 2. 点击Data Management,再点击VIEW OR IMPORT SEQUENCE DATA,点击IMPORT并从下拉菜单中点击Sequel Sequence Data,从弹出的浏览设置中选择路径/home/chenlianfu/biosoft/smrtlink/install/smrtlink-release_5.1.0.26412/bundles/smrtinub/install/smrtinub-release_5.1.0.25847/private/pacbio/canneddata/lambdaTINY/m150404_101626_42267_c100807920800000001823174110291514_s1_p0.subreadset.xml,点击IMPORT,运行一段时间后,导入数据成功。
  4.  
  5. 3. 返回到软件主界面,点击SMRT Analysis,点击CREATE NEW ANALYSIS,在Analysis Application下拉菜单中选择Assembly(HGAP 4),Analysis Name栏随便填写字符串Lambda_HGAP4,在Genome Length栏将基因组大小修改为58000,在Data Sets中勾选lambda/007_tiny,最后点击START,开始程序运行。
  6.  
  7. 4. 值得注意的是公司给的测序数据文件夹中常常不包含sts.xmladapters.fastascraps bam等文件,而在总的xml文件中却包含了这些信息,需要将其对应的行(第7行到第15行)删除掉后再运行HGAP4,否则程序运行会失败。
  8.  
  9. 5. 程序运行结果在/home/chenlianfu/biosoft/smrtlink/userdata/jobs_root/目录下的一个数字编号(按运行顺序从000001开始编号)的文件夹中。该文件夹中的的主要结果文件(也可以在网页中下载):
  10. ./tasks/pbcoretools.tasks.contigset2fasta-0/file.fasta 最终的基因组组装结果。
  11. ./tasks/pbcoretools.tasks.gather_fasta-1/file.fasta 按某个长度

发表评论

匿名网友

拖动滑块以完成验证
加载失败