主要的比对工具如下,他们各有自己的特点,本节主要讲tophat2.
•Tophat:可以实现断点比对(splicing-aware aligner),用来比对基因组。主要是通过控制内含子长度来实现,默认为50-500000.允许0,1,2错配。输出bam文件。可做转录组数据比对。
•Bowtie2:连续比对,允许0,1错配。输出sam文件。不适合转录组原始数据比对,一般做基因组数据比对。
•Bwa:连续比对。不适合转录组,一般做基因组数据比对。
•Hisat2:tophat2类似工具。可做转录组数据比对。
1.Tophat2
•Usage:tophat2 –p 8 options index PE1 PE2.
•Index:此索引以基因组序列为对象由bowtie-build建立。
•可以使用单端read文件也可以是PE的。
2、重要参数
•-N/--read-mismatches允许错配数;--read-gap-length插入缺失数目,一般默认即可。-read-edit-dist这一参数,他控制错配和indel的总和,因此他与单独的错配数、插入缺失数目存在一个木桶原理,即最小化的规则。
•-i/--min-intron-length和-I/--max-intron-length:内含子长度设置参数。可以做统计。若像关闭断点比对,可以控制该参数,如提高内含子长度的最低值。
• --library-type Tophat处理的reads具有链特异性。比对结果中将会有个XS标签。一般Illumina数 据的library-type为 fr-unstranded。
•-G | --GTF 提供基因模型的注释文件,GTF 2.2 或者 GFF 3 格式的文件。如果设置了该参数,Tophat 则先提取出转录子序列,然后使用Bowtie2将reads比对到提取的转录组中;只有不能比对上 的reads再比对到genome;比对上的reads再打断转变成genomic mappings;再融合新 的mappings和junctions作为最后的输出。 值得注意的是GTF/GFF文件代表chromosome或contig的第一列要和bowtie index中的 参考序列名一致。
• --no-novel-juncs 只搜寻和GFF或junctions文件中提供的junctions相匹配的reads,即只map转录本序列,不形成新的junctions。如果没有 -G 或 -j 参数,则该参数无效。
•-o:输出目录。默认值为 “./tophat_out”.可以改为自己定义的文件夹如./liufuyan_result。
•--report-secondary-alignments:默认条件下,TopHat 会基于AS分值输出最佳比对结果。如果想输出比对其次的,则可以加这一参数。如果想输出更多比对略差的结果可以使用-g/--max-multihits 参数。
•-g/--max-multihits<int>对于一个reads,可能会有多个比对结果,但tophat根据比对得分,最多保留的比对结 果数目。如果没有 --report-secondary-alignments参数,则只会报告出最佳的比对 结果。若最佳比对结果数目超过该参数值,则只随机报告出该数目的最佳比对结果;若有 --report-secondary-alignments 参数,则按得分顺序报告出比对结果,直至达到默认 的数目为止。
•-r/--mate-inner-dist。 大多数情况,使用默认值50(期望值)就可以了,TopHat允许一定量的偏差(-mate-std-dev <int>这一标准差参数),TopHat在多个地方使用到这个值,比如当寻找剪切位点与fusion breakpoint。同时在生成报告的最后阶段选择最佳的alignment时,用到这个信息。
•可以先用少量的数据用bowtie2进行比对,在比对结果的SAM结果中,对于paired reads,第九列是插入片段的大概长度,可以用这个数值减去两倍的read的长度,就可以得到实际的-r参数需要设置的大小,如果值太大应该小心,只有比对上同一个外显子的情况具有意义
最后阐述一下:Concordantly and Discordantly 的意思:
•A pair that alignswith the expected relative mate orientation and with the expected range of distancesbetween mates is said to align "concordantly". If both mates haveunique alignments, but the alignments do not match paired-end expectations(i.e. the mates aren't in the expcted relative orientation, or aren't withinthe expected disatance range, or both), the pair is said to align"discordantly". Discordant alignments may be of particular interest,for instance, when seeking structural variants.