htseq-count使用方法和参数简要说明

admin 24 2025-03-29 11:59:08 编辑

小编今天不说废话,直接上干货。

 

1 htseq-count的输入文件

输入为sam格式的文件,如果是paired-end数据必须按照reads名称排序(sort by name)。官方推荐了msort,不过我用起来感觉不是很方便(也可能是使用方法不当),于是我采用了samtools先对bam文件(tophat2 的输出结果为bam)排序,再转换为sam。

命令:

    samtools sort -n file.bam #sort bam by name

    samtools view -h bamfile.bam>samfile.sam

 

2 htseq-count的使用和参数

Usage:htseq-count [options] <sam_file> <gff_file>

 

3 参数说明

-m  计数模型,统计reads的时候对一些比较特殊的reads定义是否计入。包括:默认的union和intersection-strict、 intersection-nonempty具体说明如图所示。

-s reads是否匹配到同一条链上,默认:yes,可以设置no 、 reverse

-t feature type 我理解为最小的计数单位,在gtf或者gff文件中,外显子为最小的定义单位,对基因计数,只需要将包含的外显子计数相加即可。 默认:exon

-i 最终的计数单位,一般为基因。 默认为:gene_id,也可以设置转录本,但由于模型问题,计数效果不佳。

-o 输出所有alignment的reads到一个sam文件中。可以不设置。

-q 退出程序

-h 帮助文件

 

喜欢就动动手指关注我们吧!

如果有分析需求,欢迎到小店咨询!

上一篇: 基因设计工具的十大推荐,让你的科研事半功倍
下一篇: 二代测序中barcodes index的介绍
相关文章