使用 SPAdes 进行基因组组装

1. SPAdes 简介

SPAdes 主要用于进行单细胞测序的细菌基因组组装,当然也能用于非单细胞测序数据。输入数据可以是 Illumina、IonTorrent reads,或 PacBio、Sanger reads,也可以把一些 contigs 序列作为 long reads 进行输入。该软件可以同时接受多组 paired-end、mate-pairs 和 unpaired reads 数据的输入。同时该软件有一个独立的模块用于进行杂合基因组的组装。

文献:Bankevich A, Nurk S, Antipov D, et al. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing[J]. Journal of Computational Biology, 2012, 19(5): 455-477.

软件说明文档:http://spades.bioinf.spbau.ru/release3.0.0/manual.html#sec2.1

SPAdes 包含多个独立模块:

  1. BayesHammer 用于 Illumina reads 的修正
  2. IonHammer 用于 IonTorrent 数据的修正
  3. SPAdes 用于基因组组装;K 值是软件自动选择的。
  4. MismatchCorrector 对组装结果 contigs scaffolds mismatch sort indels 进行修正;此模块需要使用 BWA;默认下此模块是关闭的,但是推荐开启它。
  5. dipSPAdes 用于组装双倍型高杂合基因组;更多说明:dipSPAdes manual

2. SPAdes 下载和安装

从网页http://bioinf.spbau.ru/spades下载需要填写一些个人资料。

  1. $ wget http://spades.bioinf.spbau.ru/release3.1.0/SPAdes-3.1.0-Linux.tar.gz
  2. $ tar -xzf SPAdes-3.1.0-Linux.tar.gz -C /opt/biosoft/
  3. $ /opt/biosoft/SPAdes-3.1.0-Linux/bin/spades.py --test

测试运行

3. SPAdes 的使用

3.1 输入数据

SPAdes 3.0.0 的运行至少需要有以下一种数据:

  1. Illumina paired-end/unpaired reads
  2. IonTorrent paired-end/unpaired reads
  3. PacBio CCS reads

并且,值得注意的是:Illumina 数据和 Ionorrent 数据不能同时用于组装; 仅有 mate-paired,PacBio CLR reads, Sanger reads 或 additional contigs 数据时,不应该使用 SPAdes 进行组装。

SPAdes 支持的 Paired-end 和 Mate-Paired 的数据,其数据需要为 fastq 格式,软件需要对其进行 reads 的 error correction 。同时, SPAdes 也支持使用 Sanger 或 PacBio CCS 的 reads 数据,但软件不能对此数据进行 error correction。

3.1.1 READ-PAIR 数据

Read-pair 数据输入到程序中有 3 种方式:

1. left 和 right 的 reads 分别在两个 fastq 文件中。

2. left 和 right 的 reads 交叉融合在一个 fastq 文件中。

3. 将所有的输入数据信息整合在一个 YAML 格式的文本文件中。

使用非 YAML 方式输入数据,这种方式最多能使用 5 组 paired-end 数据 和 5 组 mate-paired 数据。
仅有一个 library 数据时:

  1. --12 file_name
  2. 12 表示后面接的文件是交叉融合的 paired 数据,下同。
  3. -1 file_name
  4. 1 表示 left 数据
  5. -2 file_name
  6. 2 表示 right 数据
  7. -s file_name
  8. s 表示 single 数据, 也用于输入 PacBio CCS reads

有多个 paired-end library 数据时:

  1. --pe{int}-12 编号为 int library 的交叉融合后的 paired 数据。int 取值只能是 1,2,3,4,5 。下同。
  2. --pe{int}-1 编号为 int library left 数据
  3. --pe{int}-2 编号为 int library right 数据
  4. --pe{int}-s 编号为 int library single 数据
  5. --pe{int}-{fr|rf|ff} 编号为 int library 的数据的方向,默认为 --pe{int}-fr

有多个 mate-paired library 数据时:

  1. --mp{int}-12 编号为 int library 的交叉融合后的 paired 数据
  2. --mp{int}-1 编号为 int library left 数据
  3. --mp{int}-2 编号为 int library right 数据
  4. --mp{int}-s 编号为 int library single 数据
  5. --mp{int}-{fr|rf|ff} 编号为 int library 的数据的方向,默认为 --mp{int}-rf

3.1.2 PACBIO 数据

PacBio 数据有两种: CCS (circular consensus sequence) 和 CLR (continuous long read)。PacBio CLR 数据有利于杂合基因组的组装。

数据输入参数:

  1. --pacbio 输入 PacBio CLR reads
  2. --sanger 输入 sanger reads

3.1.3 ADDITIONAL CONTIGS

  1. --trusted-contigs
  2. 输入可信度高的 contigs,用于 graph construction, gap closure repeat resolution
  3. --untrusted-contigs
  4. 输入可信度较低的 contigs, 用于gap closure repeat resolution

这两个参数不能输入其它邻近物种的基因组序列。仅用于输入同一个物种的基因组的 contigs 。

3.1.4 YAML 方式输入数据

  1. --dataset
  2. YAML 格式的文件
  1. [
  2. {
  3. orientation: "fr",
  4. type: "paired-end",
  5. right reads: [
  6. "/FULL_PATH_TO_DATASET/lib_pe1_right_1.fastq",
  7. "/FULL_PATH_TO_DATASET/lib_pe1_right_2.fastq"
  8. ],
  9. left reads: [
  10. "/FULL_PATH_TO_DATASET/lib_pe1_left_1.fastq",
  11. "/FULL_PATH_TO_DATASET/lib_pe1_left_2.fastq"
  12. ]
  13. },
  14. {
  15. orientation: "rf",
  16. type: "mate-pairs",
  17. right reads: [
  18. "/FULL_PATH_TO_DATASET/lib_mp1_right.fastq"
  19. ],
  20. left reads: [
  21. "/FULL_PATH_TO_DATASET/lib_mp1_left.fastq"
  22. ]
  23. },
  24. {
  25. type: "single",
  26. single reads: [
  27. "/FULL_PATH_TO_DATASET/pacbio_ccs.fastq"
  28. ]
  29. },
  30. {
  31. type: "pacbio",
  32. single reads: [
  33. "/FULL_PATH_TO_DATASET/pacbio_clr.fastq"
  34. ]
  35. }
  36. ]

3.2 参数

使用 spades.py 运行 SPAdes 程序:

  1. $ /opt/biosoft/SPAdes-3.0.0-Linux/bin/spades.py [options] -o output_dir

参数:

  1. -o output_dir
  2. 指定输出的文件夹
  3. --sc
  4. flag 用于 MDA (single-cell) 数据
  5. --iontorrent
  6. flag 用于 IonTorrent 数据的组装
  7. --test
  8. 使用 test 数据运行 SPAdes,用于检测软件是否正确安装
  9. -h | --help
  10. 打印帮助信息
  11. --only-error-correction
  12. 仅仅执行 reads error correction 步骤
  13. --only-assembler
  14. 仅仅运行组装模块
  15. --careful
  16. 通过运行 MismatchCorrector 模块进行基因组上 mismatches short indels 的修正。推荐使用此参数。
  17. --continue
  18. 从上一次终止处继续运行程序。
  19. --restart-from
  20. 从指定的位置重新开始运行程序。和上一个参数相比,此参数可以用于改变一些组装参数。可选的值有:
  21.  
  22. ec error correction 处开始
  23. as assembly module 处开始
  24. k{int} 从指定的 k 值处开始
  25. mc mismatch correction 处开始
  26.  
  27. --disable-gzip-output
  28. 使用此参数来设定不对 corrected reads 进行压缩。默认下 corrected reads .fastq.gz 格式的
  29. -t int
  30. 使用的线程数,默认为16
  31. -m int
  32. 设定内存的限制,单位为 Gb。如果程序使用的内存达到此值,则程序会终止运行。默认值是 250
  33. --tmp-dir dir_name
  34. 设置 reads error correction 的临时文件存放路径。默认为 output_dir/corrected/tmp
  35. -k int,int,...
  36. 由逗号分隔的 k-mer sizes。这些数值必须为奇数,要小于 128,且按升序排列。如果使用了 --sc 参数,则默认值为 21,33,55 若没有 --sc 参数,则程序会根据 reads 长度自动选择 k-mer 参数。
  37. --phred-offset
  38. 碱基质量格式, 33 64

3.3 常用例子

单个 illumina paired-end 文库:

  1. $ spades.py -o output_dir -1 reads1.fastq -2 reads2.fastq

多个 illumina paired-end 和 mate-paired 文库,以及 Pcabio sanger contigs 数据:

  1. $ spades.py -o output_dir\
  2. --pe1-1 pe1_1.fq --pe1-2 pe1_2.fq --pe2-1 pe2_1.fq --pe2-2 pe2_2.fq\
  3. --mp1-1 mp1_1.fq --mp1-2 mp1_2.fq --mp2-1 mp2_1.fq --mp2-2 mp2_2.fq\
  4. -s pacibo_ccs.fastq --pacbio pacbio_clr.fastq\
  5. --sanger sanger.fa\
  6. --trusted-contigs trusted_contig.fa\
  7. --untrusted-contigs untrusted_contig.fa\
  8. --careful -t 16 --phred-offset 33 -m 250 -k 21,33,55 [--sc]

原文来自:http://www.chenlianfu.com/?p=2116

发表评论

匿名网友

拖动滑块以完成验证
加载失败