1. MaSuRCA 简介
MaSuRCA(Maryland Super Read Cabog Assembler)基因组组装软件集合了 de Bruijn 和 Overlap-Layout-Consensus 的优点。
文献:Zimin A V, Marçais G, Puiu D, et al. The MaSuRCA genome assembler[J]. Bioinformatics, 2013, 29(21): 2669-2677.
2. MaSuRCA 下载和安装
$ wget wget ftp://ftp.genome.umd.edu/pub/MaSuRCA/MaSuRCA-2.2.1.tar.gz $ tar zxf MaSuRCA-2.2.1.tar.gz -C /opt/biosoft $ cd /opt/biosoft/MaSuRCA-2.2.1 $ ./install.sh
3. MaSuRCA 使用
3.1 配置文件准备
将模板配置文件 “/opt/biosoft/MaSuRCA-2.2.1/sr_config_example.txt” 拷贝到当前工作目录,并修改之。此配置文件含有输入文件和参数 的一些信息。内容如下:
# 测序数据的信息。分为 3 种类型:PE JUMP OTHER。每种类型的数据后接 5 列:1)2 个字符的前缀;2)平均插入片段长度;3)插入片段长度标准差;4)fastq(.gz)格式的 reads1; 5)fastq(.gz)格式的 reads2。如果有 jump 数据是 FR 类型,则,则使用 JUMP,但是平均插入片段长度为负数。其它的数据,则必须要转换成 Celera 兼容的 .frg 文件。 DATA PE= p1 180 20 180_1.fastq 180_2.fastq PE= p2 500 50 500_1.fastq 500_2.fastq JUMP= j1 2000 200 2000_1.fastq 2000_2.fastq JUMP= j2 5000 500 5000_1.fastq 5000_2.fastq OTHER= file.frg END PARAMETERS # 设置 k-mer size,大小为 25~101,或者为 auto,表示自动计算最优值。 GRAPH_KMER_SIZE=auto # 如果仅分析 Illumina 数据,则值为 1;如果有 1x 及以上的 454 数据,则设置为 0。 USE_LINKING_MATES=1 # 如果 jumping library 的数据过多,可能会 confuse the assembler,设置此值为 60,则仅使用 60x 左右的 jumping 数据用于基因组组 装。对于细菌基因组,一般设置为 60。如果基因组较大,则设置此值大些。对于一些较大的真核基因组,可以大至 1000。 LIMIT_JUMP_COVERAGE = 60 # Celera Assembler 的参数。如果是 mammals 的基因组,cgwErrorRate的值不能高于 0.15。 CA_PARAMETERS = ovlMerSize=30 cgwErrorRate=0.25 ovlMemory=4GB # 舍弃频数低于此值的 k-mer。如果覆盖度大于 100,可以设置此值为 2。 KMER_COUNT_THRESHOLD = 1 # 设置使用的线程数。 NUM_THREADS= $NUM_THREADS # 设置 jellyfish 的 hash size。此值可以设置为 "基因组大小+reads的数目"。 JF_SIZE=100000000 # 设置是否 trim long reads 的 3' homopolymers(e.g. GGGGGGG)。适合于高 GC 含量的基因组。 DO_HOMOPOLYMER_TRIM=0 END
3.2 运行 masurca 和 assemble.sh 进行基因组组装
运行程序 masurca,生成 assemble.sh; 然后运行 assemble.sh 进行组装。
$ /opt/biosoft/MaSuRCA-2.2.1/bin/masurca config.txt $ ./assemble.sh
3.3 运行中断后继续运行
由于程序出错,或手动终止后,可以终止步骤所生成的文件,在继续运行 masurca ,生成含有后续步骤的 assemble.sh,再继续运行程序。
4. 结果文件
最终的结果文件为 CA/10-gapclose/genome.ctg.fasta 。
原文来自:http://www.chenlianfu.com/?p=2107
1F
masurca:未找到命令
2F
Configuration. To run the assembler, one must first create a configuration file that specifies the location of the executables, data and assembly parameters for the assembler. The installation script will create a sample config file ‘sr_config_example.txt’. Lines starting with a pound sign (‘#’) are comments and ignored. The sample configuration file looks like this.
masurca configuration.txt 未找到命令
3F
~/DNA/zuzhuang/MaSuRCA-2.3.2/bin$ masurca configuration.txt 未找到命令????
4F
line 35 是end函数在最后一行,提示end不行;
runCA OK
createSuperReadsForDirectory.perl OK
Error: Modification of a read-only value attempted at masurca line 107, line 35.
B1
@ 123 一样的问题,但我这里illumina数据运行没有问题,是454数据用fastqToCA生成frg后运行出现这个错误
5F
ERROR: Failed with signal HUP (1)
runCA failed.
gatekeeper failed
出现这些错误是什么回事