SSPACE 能利用 paired reads 的比对结果,将 contigs 或 scaffolds 连接成 scaffolds。其参考文献:Boetzer M, Henkel C V, Jansen H J, et al. Scaffolding pre-assembled contigs using SSPACE[J]. Bioinformatics, 2011, 27(4): 578-579.
1. 安装 SSPACE
软件下载页面:http://www.baseclear.com/lab-products/bioinformatics-tools/sspace-standard/。
- $ tar zxf SSPACE-STANDARD-3.0_linux-x86_64.tar.gz
- $ ./SSPACE-STANDARD-3.0_linux-x86_64/SSPACE_Standard_v3.0.pl
解压缩软件包后,运行软件文件夹中的 perl 程序即可运行 SSPACE。软件主目录下包含一些软件使用说明和示例等,其中 README 文件描述得非常详细。
2. SSPACE 使用方法
2.1 library 文件
首先要建立一个描述 library 信息的文本文件,例如:
- Lib1 bwa file1.1.fasta file1.2.fasta 400 0.25 FR
- Lib1 bowtie file2.1.fasta file2.2.fasta 400 0.25 FR
- Lib2 bwasw file3.1.fastq file3.2.fastq 4000 0.5 RF
- Lib2 TAB file4.tab 4000 0.5 RF
- Lib3 TAB file5.tab 10000 0.5 RF
- unpaired bowtie unpaired_reads1.fasta
- unpaired bwasw unpaired_longreads1.gz
此 library 文件由多列组成,列与列之间由 1 个 空格 或 tab 分隔,各列意义如下:
- 第 1 列: library 名称。程序运行过程中产生的临时文件以此来命名; 多个行可以拥有同一个 library 名称,则其具有相同的 library 设置和不同的数据文件; 同时,libraries 必须按 insert size 来排序,inert size 最小的必须放到第一行,这是因为进行 scaffold 构建时,按此文件提供的 libraries 的顺序来输入数据的; unpaired reads, 则第一列是 ‘unpaired’。
- 第 2 列: 将 reads 比对到基因组上所使用的软件名, 可以为 bowtie 、 bwa 和 bwasw 等; 如果输入的数据是 reads 比对过后的 tab 格式结果,则此列为 “TAB”。
- 第 3,4 列: Fasta 或 Fastq 格式的双末端测序文件,并且文件中成对的 paired reads 必须在两个文件中并处于相同的行号上,同时,软件读取数据与序列的 headers 无关。如果是 unpaired reads,则仅需要第 3 列,为 tab 格式的 reads mapping 结果,过后详述。
- 第 5,6 列:第 5 列为 insert size 的期望值; 第 6 列为 insert size 允许的最小偏差。 比如,这两列值分别为 4000 和 0.5,则 insert size 在 2000-6000 之间的 pairs 才是有效 pairs。
- 第 7 列:paired-reads 的方向,有 FF,FR,RF 或 RR 几种选项。
2.2 程序参数
- -l 输入的 library 文件
- -s 输入的 Fasta 文件
- -x 是否对 contigs 进行延长。其值可以为 0 或 1。 1 表示进行延伸,0 表示不延伸。默认值为 0。
延伸参数:
- -m 进行延伸时,read 和基因组序列最小的 overlap。此值越大,则结果越准确,同时耗内存越少。推荐此值接近最长的 read 的长度。比如,对于 26 bp 长度的 reads, 该值适合设为 32~35。 默认此值为 32 。此值取值范围为 15~50 。软件运行时,将 unmapped reads 全部打断成 m+1 长度的序列,这些序列用于进行 contigs 的延伸。
- -o 进行延伸时,延伸 1 个碱基需要的最小 reads 数。此值越大,则结果越准确。默认值为 20 。
- -r 进行延伸时,延伸 1 个碱基,此碱基在所有匹配的 reads 中的最小比例。此值越大,则结果越准确。默认值为 0.9 。
Scaffolding 参数:
- -k 将两个 contigs 连接成 scaffold 时,需要的最小的 reads pairs 数目。默认值为 5 。
- -a 将两个 contigs 连接成 scaffold 时,这两个 contigs 之间的连接数 与 其和其它 contigs 的连接数之间的最小比值。此值越大,则结果越准确。默认值为 0.70
- -n 在 scaffold 中,将两个邻近的 contigs 合并到一起需要的最小的 overlap。默认值为 15。
- -z 进行 scaffolding 时,允许的最小的 contig 长度。低于此长度的 contig 将不能用于进行 scaffold 组装。默认值为 0 。较长的 contigs 产生的 scaffolds 比较可信; 而小于 100bp 的 contigs 容易是重复序列。
bowtie 比对参数:
- -g 使用 bowtie 进行比对时,允许的最大 gaps 数。默认值为 0
其它参数:
- -T 设定运行的线程数。默认值为 1。
- -b 输出文件夹名及文件夹内的文件前缀。
- -S 当程序正在运行时,跳过读取 reads 的阶段。和 -b 参数结合使用,则可以同时运行多个 SSPACE 程序,对每个程序设置不同的参数,这样能较快得到较好的结果。
- -v verbose mode
- -p 生成可供可视化的 .dot 文件。
2.3 其它工具
SSPACE 提供了一些其它比较有用的小工具:
- estimate_insert_size.pl 用于计算 insert size。此程序计算的结果有些问题。
- fastq_qualitytrim_pairs.pl 对 reads pairs 进行质量控制的程序。
sam_bam2tab.pl 将 bam sam 文件转换为 tab 格式的程序。
原文来自:http://www.chenlianfu.com/?p=2120