1. SMRT Analysis简介
SMRT Analysis软件是由Pacbio Science公司开发的软件,现在是SMRT Link软件的一部分,用于对Pacbio Long Reads数据进行分析。其2.3版本仅能用于对Pacbio RSII测序仪获得的h5格式测序数据进行,该版本持续了较长一段时间。后来Pacbio测序仪增添Sequel平台后,SMRT Analysis软件更新到3.0,增加支持对Pacbio Sequel测序仪获得的bam格式数据进行分析。现在(2018.09.02)最新版本的SMRT Analysis到了5.1版本。
2. 下载并安装SMRT Link软件
将SMRT Link安装到CentOS 6.9系统中。安装软件前需要做一些准备:
首先,确定主机名是localhost并指向127.0.0.1的IP地址。刚安装完毕的系统一般都满足此要求。 保证/etc/hosts文件中含有以下一行信息: 127.0.0.1 localhost 其次,修改/etc/security/limits.conf文件,尾部增添如下4行: chenlianfu soft nproc 10240 chenlianfu hard nproc 102400 chenlianfu soft nofile 10240 chenlianfu hard nofile 102400 注意chenlianfu是安装SMRT Analysis软件所使用的用户的用户名。 该步骤用于增加chenlianfu用户的权限,这是与SMRT软件较高的资源消耗和较多的并行化相关的。 此外,注意此步骤过后,从新登陆 然后,修改/etc/sysconfig/iptables文件,增加5432(PostGresql数据库需要)、9090和8243(软件网页端使用tomcat提供服务时需要9090和8423)端口。在该文件中正确的位置增加如下两行: -A INPUT -m state --state NEW -m tcp -p tcp --dport 5432 -j ACCEPT -A INPUT -m state --state NEW -m tcp -p tcp --dport 9090 -j ACCEPT -A INPUT -m state --state NEW -m tcp -p tcp --dport 8243 -j ACCEPT 然后重启防火墙,让修改生效: # /etc/init.d/iptables restart 最后,启动PostGresql数据库。 # /etc/init.d/postgresql initdb # /etc/init.d/postgresql start # chkconfig postgresql on
从Pacbio Science官网下载SMRT Link软件。
将SMRT Link安装到 ~/biosoft 目录下 $ mkdir ~/biosoft $ cd ~/biosoft $ wget https://downloads.pacbcloud.com/public/software/installers/smrtlink_5.1.0.26412.zip $ unzip smrtlink_5.1.0.26412.zip 要求输入密码,可以从下载该软件的网页中找到。 $ ./smrtlink_5.1.0.26412.run 根据提示一步一步进行配置,基本都是直接使用默认值,按Enter键即可。 设置软件临时文件夹的时候,要选择一个较大分区所对应的目录。我将其设置为/home/chenlianfu/biosoft/tmp/smrtlink $ /home/chenlianfu/biosoft/smrtlink/admin/bin/services-start 启动SMRT Link软件。
3. 使用HGAP4进行基因组De novo组装
1. SMRT Link软件必须要在Chrome浏览器中打开。在Chrome浏览器中输入安装有SMRT Link软件机器的IP地址,并接:9090,例如:192.168.30.1:9090,就可以连接到软件的用户登陆界面,输入用户名admin,密码admin则会进入软件。 2. 点击Data Management,再点击VIEW OR IMPORT SEQUENCE DATA,点击IMPORT并从下拉菜单中点击Sequel Sequence Data,从弹出的浏览设置中选择路径/home/chenlianfu/biosoft/smrtlink/install/smrtlink-release_5.1.0.26412/bundles/smrtinub/install/smrtinub-release_5.1.0.25847/private/pacbio/canneddata/lambdaTINY/m150404_101626_42267_c100807920800000001823174110291514_s1_p0.subreadset.xml,点击IMPORT,运行一段时间后,导入数据成功。 3. 返回到软件主界面,点击SMRT Analysis,点击CREATE NEW ANALYSIS,在Analysis Application下拉菜单中选择Assembly(HGAP 4),Analysis Name栏随便填写字符串Lambda_HGAP4,在Genome Length栏将基因组大小修改为58000,在Data Sets中勾选lambda/007_tiny,最后点击START,开始程序运行。 4. 值得注意的是公司给的测序数据文件夹中常常不包含sts.xml、adapters.fasta和scraps bam等文件,而在总的xml文件中却包含了这些信息,需要将其对应的行(第7行到第15行)删除掉后再运行HGAP4,否则程序运行会失败。 5. 程序运行结果在/home/chenlianfu/biosoft/smrtlink/userdata/jobs_root/目录下的一个数字编号(按运行顺序从000001开始编号)的文件夹中。该文件夹中的的主要结果文件(也可以在网页中下载): ./tasks/pbcoretools.tasks.contigset2fasta-0/file.fasta 最终的基因组组装结果。 ./tasks/pbcoretools.tasks.gather_fasta-1/file.fasta 按某个长度