htseq-count使用方法和参数简要说明

评论8,732

htseq-count是一款用于reads计数的轻便软件,作者介绍说可以用于多种mapping软件的输出结果,而我则用于tophat2的输出文件做计数。不过貌似所有能转换为sam格式文件的输出都可以用htseq-count计数。

htseq-count使用方法和参数简要说明

htseq-count的输入文件

输入为sam格式的文件,如果是paired-end数据必须按照reads名称排序(sort by name)。官方推荐了msort,不过我用起来感觉不是很方便(也可能是使用方法不当),于是我采用了samtools先对bam文件(tophat2的输出结果为bam)排序,再转换为sam。

命令:

samtools sort -n file.bam #sort bam by name
samtools view -h bamfile.bam>samfile.sam

htseq-count的使用和参数

参数说明

-m 计数模型,统计reads的时候对一些比较特殊的reads定义是否计入。包括:默认的union和intersection-strict、 intersection-nonempty具体说明如图所示。
htseq-count mode -s reads是否匹配到同一条链上,默认:yes,可以设置no 、 reverse

-t feature type 我理解为最小的计数单位,在gtf或者gff文件中,外显子为最小的定义单位,对基因计数,只需要将包含的外显子计数相加即可。 默认:exon

-i 最终的计数单位,一般为基因。 默认为:gene_id 也可以设置转录本,但由于模型问题,计数效果不佳。

-o 输出所有alignment的reads到一个sam文件中。可以不设置。

-q 退出程序

-h 帮助文件

原文来自:http://www.dengfeilong.com/post/htseq-count.html

发表评论

匿名网友