在二代测序(Next Generation Sequencing)依然盛行之下,三代测序也迅速发展壮大起来。相比于二代测序,三代测序最明显的优势是测序读长,大约在几十kb,甚至超过100kb。目前主流三代测序技术主要是美国太平洋生物(Pacific Bioscience)的单分子实时荧光测序(Single Molecule Real-Time)和英国牛津纳米孔公司(Oxford Nanopore Technologies, ONT)的纳米孔测序(nanopore sequencing)。
许多生信分析(比如差异表达、基因融合、通路分析)的前提和起始都是序列比对,即将测序片段比对到参考基因序列上。由于三代测序高错误率(15%左右)的特点,以往的适用于二代测序比对工具(short-read aligner,比如HISAT2, STAR)已经不再适用。为三代测序专门开发的长序列比对工具(long-read aligner)近年来相继涌现出来(NGMLR, GraphMap, BWA-MEM, Minimap2)。就文献引用量来看,以上提到的工具中Minimap2是最流行的(文章自2018年发表在Bioinformatics上以来,目前已经有2000+的引用量)。它同时也是ONT官方使用的对比工具。
Minimap2安装和使用速览
使用GitHub源代码安装
git clone https://github.com/lh3/minimap2
cd minimap2 && make
通过Anaconda安装
conda install -c bioconda minimap2
使用
Indexing
minimap2 -d ref.mmi ref.fa
首次index
一个genome
或transcriptome
会需要些时间,但是一劳永逸,后面的样本可以重复使用此index
。
Alignment
minimap2 --split-prefix=tmp -a ref.mmi reads.fq > alignment.sam
更多详细的参数需要大家根据自己的数据,参考manual自行添加,但是一个容易被忽视的参数是--split-prefix=tmp
,尤其当genome多于4GB时(比如人类genome),否则生成的SAM文件是没有header的,这样后续分析就会出问题。明明是一个很重要的信息,不知道为啥在manuel里不提及,而是藏在FAQ页面:https://github.com/lh3/minimap2/blob/master/FAQ.md (不要问我为何会发现这个问题)。
存在问题
Minimap2
的GitHub页面也提到了他们意识到的一些缺陷,但是一般的使用情况下,都不会成为问题。然而在我们项目中,其中一个缺陷却成为Minimap2对我们的一个致命缺点:Minimap2会错失一些比较短的exon。因为在prostate cancer中一个很重要的基因融合TMPRSS2-ERG,往往是由TMPRSS2的exon 1和ERG的一些下游exon融合而成,但是有一些TMPRSS2的exon 1非常短(~80 bases),一旦在alignment这一步被错过,后续的基因融合检测阶段就永远不可能找到TMPRSS2-ERG了。
这便引出了想要给大家推荐的另一个比对工具:BWA-MEM。它是由同一个团队(更具体说,是一个人Heng Li)开发的。BWA原本是用于short-read,但是最新的BWA-MEM可以用于long-read(70bp-1Mbp)。经过在我们项目的Nanopore sequencing数据上检验发现,BWA-MEM可以识别很短的TMPRSS2的exon 1,因此后续的基因融合分析中便可检测到TMPRSS2-ERG这一重要基因融合。
BWA-MEM安装和使用速览
使用GitHub源代码安装
git clone https://github.com/lh3/bwa.git
cd bwa; make
通过Anaconda安装
conda install -c bioconda bwa
使用
Indexing
bwa index ref.fa
Alignment
bwa mem ref.fa reads.fq > alignment.sam
存在问题
按照作者的说法,Minimap2
和BWA-MEM
在功能上差别不大,但是前者比后者快很多(50倍)。并且在我的使用中得到了证实。但是咱做生信分析的,一般都是使用服务器或者超级计算机,那点速度差异在时间维度上真的没所谓(顶多就是程序跑着,先刷个剧再回来看结果呗)。主要还是得因地制宜,看大家研究的侧重点。
文献
Li, Heng. "Minimap2: pairwise alignment for nucleotide sequences." Bioinformatics 34.18 (2018): 3094-3100.
Li, Heng, and Richard Durbin. "Fast and accurate long-read alignment with Burrows–Wheeler transform." Bioinformatics 26.5 (2010): 589-595.
Li, Heng. "Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM." arXiv preprint arXiv:1303.3997 (2013).