小编今天不说废话,直接上干货。
1 htseq-count的输入文件

输入为sam格式的文件,如果是paired-end数据必须按照reads名称排序(sort by name)。官方推荐了msort,不过我用起来感觉不是很方便(也可能是使用方法不当),于是我采用了samtools先对bam文件(tophat2 的输出结果为bam)排序,再转换为sam。
命令:
samtools sort -n file.bam #sort bam by name
samtools view -h bamfile.bam>samfile.sam
2 htseq-count的使用和参数
Usage:htseq-count [options] <sam_file> <gff_file>
3 参数说明
-m 计数模型,统计reads的时候对一些比较特殊的reads定义是否计入。包括:默认的union和intersection-strict、 intersection-nonempty具体说明如图所示。
-s reads是否匹配到同一条链上,默认:yes,可以设置no 、 reverse
-t feature type 我理解为最小的计数单位,在gtf或者gff文件中,外显子为最小的定义单位,对基因计数,只需要将包含的外显子计数相加即可。 默认:exon
-i 最终的计数单位,一般为基因。 默认为:gene_id,也可以设置转录本,但由于模型问题,计数效果不佳。
-o 输出所有alignment的reads到一个sam文件中。可以不设置。
-q 退出程序
-h 帮助文件
喜欢就动动手指关注我们吧!
如果有分析需求,欢迎到小店咨询!