使用Platanus进行基因组组装

1. platanus 的安装

  1. $ mkdir /opt/biosoft/platanus
  2. $ wget http://platanus.bio.titech.ac.jp/Platanus_release/20130901010201/platanus -P /opt/biosoft/platanus
  3. $ wget http://platanus.bio.titech.ac.jp/Platanus_release/20130901010201/README -P /opt/biosoft/platanus
  4. $ chmod 755 /opt/biosoft/platanus

下载的两个文件分别是主程序和说明文件。

2. platanus 的使用

platanus 下包含三个命令,分别是 assemble, scaffold, gap_close 。其用法如下:个
这 3 个命令的共同参数为:

  1. -t 使用的线程数,此值<=100,默认值为 1
  2. -o 输出文件的前缀,默认值为 out

2.1 assemble

此命令基于 Bruign 图的算法来组装出 contig

  1. -f FILE1 [File2 ...]
  2. 输入的文件,支持输入的文件总输入最大为 100 。文件可以为 fasta fastq 格式。 软件会自动识别其格式。不会运用到碱基质量值,碱基质量值对组装无任何影响。
  3. -k INT
  4. 初始的 k-mer 大小,默认值为 32 。数据覆盖度低时,该值要设小些。
  5. -s INT
  6. -mer 值的步进。此值必须 >= 1,默认值为 10 。程序会使用多个 K-mer 值进行 contigs 组装。
  7. -n INT
  8. 初始的 k-mer 覆盖度的 cutoff 默认值为 0,即自动取值。自动取值依赖于 k-mer 的频率分布。如果其分布不正常,则应该手动设置。
  9. -c INT
  10. 设置最小的 k-mer 覆盖度。默认值为 2 。在 k-mer 值越大的时候,则 k-mer 覆盖度越小,其 cutoff 值越小,但此 cutoff 值不能低于此参数设置的值。
  11. -a FLOAT
  12. K-mer 值增大的安全性水平,默认值为 10.0 。增大最终的 k-mer 值。如果牺牲准确性来延伸 contig,则设置较低的值,比如为 5.0
  13. -u FLOAT
  14. 消除气泡所运行的最大差异,默认值为 0.1 。此值越大,则越容易消除气泡。特别是基因组杂合率高时,此值推荐设置更高,比如为 0.2
  15. -d FLOAT
  16. 当分支的覆盖率超过此值时,则截断分支,默认值为 0.5 。此值越小,则准确率越高。如果碱基错误率较低,则适合设置较低的值,比如 0.3
  17. -m INT
  18. 限制内存,单位为 GB,默认值为 16 。当程序需要消耗的内存超过此值,则会提示警告,但不会中断运行。

此程序输出的文件为

  1. PREFIX_contig.fa 组装出的连续的序列
  2. PREFIX_contigBubble.fa 融合并删除的气泡序列
  3. PREFIX_kmerFrq.tsv k-mers 频数的分布

2.2 scaffold

scaffold 用于将 paired reads 比对到 contigs 上,并确定 contigs 的顺序和方向,构建出 scaffolds 。

  1. -c FILE1 [FILE2 ...]
  2. contig 文件。 在此 fasta 文件的 header 中,程序识别字符 cov’并将其后的数值作为覆盖度的值。即使没有 cov 信息,程序也能处理。
  3. -b FILE1 [FILE2 ...]
  4. Bubble_seq_file
  5. -ip{INT} PAIR1 [PAIR2 ...]
  6. INT 在参数的名称中,是 LIB 的名称,后接 Inward Paired 的数据文件。首尾 reads 在同一个文件中,此参数后接这个文件名。
  7. -IP{INT} FWD1 REV1 [FWD2 REV2 ...]
  8. INT 在参数的名称中,是 LIB 的名称, 后接 Inward Paired 的数据文件。首尾 reads 分别位于两个文件中,此参数后接这两个文件名。
  9. -op{INT} PAIR1 [PAIR2 ...]
  10. INT 在参数的名称中,是 LIB 的名称,后接 Outward Paired 的数据文件。首尾 reads 在同一个文件中,此参数后接这个文件名。
  11. -OP{INT} FWD1 REV1 [FWD2 REV2 ...]
  12. INT 在参数的名称中,是 LIB 的名称, 后接 Outward Paired 的数据文件。首尾 reads 分别位于两个文件中,此参数后接这两个文件名。
  13. -n{INT1} INT2
  14. INT1 在参数的名称中,是 LIB 的名称, INT2 是最小的 insert size 在进行 scaffolding 时,程序会自动估算各个文库的 insert size 值。如果文库中 paired reads 估算出的 insert size < IN2,则舍弃此 paired reads 信息。
  15. -a{INT1} INT2
  16. INT1 在参数的名称中,是 LIB 的名称, INT2 是设定的 insert size 的平均值 。设定此参数,则程序不进行自动估算 insert size
  17. -d{INT1} INT2
  18. INT1 在参数的名称中,是 LIB 的名称, INT2 是设定的 insert size 的标准差。设定此参数,则程序不进行自动估算 insert size
  19. -s INT
  20. Mapping seed length (default 32)。此值设定不能超过 reads 的长度。越小,则程序运行速度越低。
  21. -v INT
  22. 最小的重叠长度(default 32)。 如果临近的 contigs 重叠的长度 >= INT,则这两个 contigs 则连接起来。
  23. -l INT
  24. 连接两个 contig 所需要的最小的 paired reads 的连接数。
  25. -u FLOAT
  26. 消除气泡所运行的最大差异,默认值为 0.1 。此值越大,则越容易消除气泡。特别是基因组杂合率高时,此值推荐设置更高,比如为 0.2

此程序的输出文件:

  1. PREFIX_scaffold.fa 组装出来的 scaffold 序列
  2. PREFIX_scaffoldBubble.fa 去除的 bubble 序列
  3. PREFIX_scaffoldComponent.tsb scaffold 由相应的 contigs 组成的信息

2.3 gap_close

程序将 paired reads 比对到 scaffolds,将 reads 定位到 gaps 上,并关闭一些 gap 。

  1. -c FILE1 [FILE2 ...]
  2. scaffold 文件
  3. -ip{INT} PAIR1 [PAIR2 ...]
  4. INT 在参数的名称中,是 LIB 的名称,后接 Inward Paired 的数据文件。首尾 reads 在同一个文件中,此参数后接这个文件名。
  5. -IP{INT} FWD1 REV1 [FWD2 REV2 ...]
  6. INT 在参数的名称中,是 LIB 的名称, 后接 Inward Paired 的数据文件。首尾 reads 分别位于两个文件中,此参数后接这两个文件名。
  7. -op{INT} PAIR1 [PAIR2 ...]
  8. INT 在参数的名称中,是 LIB 的名称,后接 Outward Paired 的数据文件。首尾 reads 在同一个文件中,此参数后接这个文件名。
  9. -OP{INT} FWD1 REV1 [FWD2 REV2 ...]
  10. INT 在参数的名称中,是 LIB 的名称, 后接 Outward Paired 的数据文件。首尾 reads 分别位于两个文件中,此参数后接这两个文件名。
  11. -s INT
  12. Mapping seed length (default 32)。此值设定不能超过 reads 的长度。越小,则程序运行速度越低。
  13. -v INT
  14. 最小的重叠长度(default 32)。 此值越小,例如 20,则关闭的 gap 会越多。
  15. -e FLOAT
  16. 重叠区所允许的最低错误率,默认值为 0.05 此值越大,例如 0.1 ,则关闭的 gap 会越多。

程序输出的文件:

  1. PREFIX_gapClosed.fa 补洞后的序列文件

原文来自:http://www.chenlianfu.com/?p=2112

发表评论

匿名网友

拖动滑块以完成验证
加载失败