盘点各大DNA测序测序平台

admin 69 2024-12-16 编辑

盘点各大DNA测序测序平台

盘点各大DNA测序测序平台

高通量DNA测序技术(DNA-seq)是临床和基础生物医学研究的重要手段之一。作为一种常规的技术方法,DNA-seq在多个领域均有广泛应用,例如个体基因分型和变异鉴定,种群和物种水平的基因组特征比较以及基于宏基因组的种群多样性。近年来,基因组测序由于成本的大幅降低已变得无处不在。这导致现在出现了各种各样的样本收集方式、建库方式、测序化学和下游生物信息分析方法。在本文中,生物分子资源设施协会(ABRF)对一些测序平台, Oxford Nanopore Technologies PromethION/MinION, BGISEQ-500/MGISEQ-2000和GS111)在人类和细菌参考DNA样本的二代测序性能进行了测试。一起来看看吧~

关于ABRF

ABRF于1989年正式组建,成员包括来自41个国家/地区、340个不同核心实验室的1000多位科学家,成员来自工业界、政府、学术界以及研究机构。ABRF致力于通过研究、交流和教育推进生物技术实验室的核心竞争力和研究。

结果解读:

实验设计框架

在几个平台上对人和细菌基因组和靶向外显子文库进行了测序,包括5个Illumina平台、3个Ion Torrent平台、ONT minion(R9.4和Flongle flow cells)和Proomeion、BGISEQ-500、MGISEQ-2000和GenapSys GS111(A)。由于实验类型的不同,测序深度从较高基因组覆盖(接近1,000×平均覆盖)到较低基因组覆盖(<1×平均覆盖)不等。大多数全基因组序列文库具有25倍到80倍的平均覆盖率(B)。Map-rate在平台内是一致的,但在不同平台之间差异很大。并且作者在Illumina、Ion Torrent、ONT和GenapSys平台上对3个单独的细菌物种和1个包含10个细菌物种的宏基因组混合物进行了测序(D)。个体细菌物种和宏基因组测序的物种包括各种各样的基因组大小、GC含量、革兰氏染色反应和生态位(或者在某些情况下,例如高盐分亲和力会给捕获会带来挑战),这旨在评价每个平台克服这些因素的能力。

 

归一化覆盖分析,各测序平台有各自的优势

每台仪器只使用具有足够覆盖范围的replicates (平均覆盖深度≥10倍,mapping quality截止为MQ20)和每个replicate的全球平均覆盖率为25倍来计算整个基因组的覆盖均衡度。所以,由于覆盖范围不够,此处排除了来自GS111和Flong le和R9.4 Minion Flow cell的replicate。作者发现覆盖范围在各种平台之间非常一致,包括short和 long reads (A)。另外,作者还总结了不同环境下平台之间的的性能(B)。尽管这些平台可以根据覆盖性能进行分层,但平台内的变化很小 (C)。各平台比拼:根据作者的结果来看各个平台都有各自的优势:BGISEQ-500、HiSeq4000、NovaSeq 2x150bp捕获Alu区域,HiSeq 2500、HiSeq X10和NovaSeq 2x150bp在捕获L1、L2和低复杂度区域,PacBio CCS和NovaSeq在微卫星区域和简单重复区域,PromethION平台则在端粒区域。

 

测序错配率,PacBio CCS最低,而GenapSys的表现较差

根据UCSC RepeatMasker区域表征比对读数与参考基因组的不一致性比率(即失配率),以评估困难区域的测序性能(A)。错配也按GC含量的百分比(B)和每read的碱基位置(C)进行分层。作者也总结了在均聚物(D)和其他短串联重复序列(STR) 区域的错误率,按它们的熵排序,对STR基序的复杂性进行衡量(E)。各平台比拼:测序错配率与基因组中GC含量相关。在GC含量高和低的区域,各平台的错误率均比较高。错误在均聚物重复较高和STR熵较低的区域更常见。在短读长测序平台中,BGISEQ-500、MGISEQ-2000提供的测序错误率最低。在错误模式上,Genapsys和Nanopore平台最主要错误来源是插入/缺失。其他的平台的错误模式主要集中在核苷酸替代。总之,PacBio CCS平台的错误率最低,而GenapSys的STR错误率比其他短读平台高。

|估计每个平台的测序错误率

SNV的检出中,BGI的DNBSEQ平台最为灵敏。而NovaSeq 6000捕获INDELs最为强大。

几个常见的生殖系变异callers在不同软件进行了比较,包括DeepVariant、GATK HaplotypeCaller、Sentieon Haplotyper和Strelka2用于短读,以及Clair2用于长读(A)。与之前的覆盖和错配一样,为了在较难的区域比较个平台准确性和重现性,作者对UCSC RepeatMasker类对变体进行了分层 (B)。除了衡量特异性和敏感性外,还记录了在每个context中捕获的变异总数,以及SNV (C)和INDELS(D)平台之间的重叠。作者还通过突变大小可视化了真阳性INDELs的捕获(E)。各平台比拼:在SNV的检出中,BGI的DNBSEQ平台最为灵敏,最差的是HiSeq4000平台。在各个平台中Indel检测是不相同的,特别是对于插入(缺失在平台之间更具可比性)。ONT平台捕获的比例最低,其次是BGISEQ-500,Illumina HiSeq平台,然后是PacBio CCS。NovaSeq 6000使用2 × 250-bp read chemistry,是捕获已知INDELs的最强大的工具。

 

结构变异检测,HiSeq遥遥领先

A显示了所有数据集的总体统计信息,以及每个样本的SV调用分布。SV call集在基因组的特定区域没有显示任何聚集,分布在整个基因组中(e)。很明显,来自SV caller可变性的假阳性主要是由LumPy的SV calls,其次是Delly和Manta(B)。在HiSeq X10上识别的SVs中,共有14.43%(42)是唯一的假阴性,相比之下,HiSeq 4000上识别的SVs为13.90%(36 SVs),HiSeq 2500上的SVsS为8.77%(20)。总体而言,73.17%的SVs与HG002参考集重叠,表明假阳性数量较少,replicates之间的一致性较高(e)。各平台比拼:在各平台数据中,HiSeqX10检测到SVs数量最多,其次是HiSeq4000和HiSeq2500。检出假阳性最多的平台依次是HiSeq2500,HiSeqX10和HiSeq4000。

 

细菌基因组测序,ThermoFisher的Ion PM和S5平台略胜一筹

作者接下来对于GC差异较大的原核细菌基因组进行了测序分析,包括三种单一菌种和十种细菌的混合物。各样本分别于MiSeq、Ion PGM和 Ion S5平台测序。对于宏基因组库((American Type Culture Collection (ATCC)MSA-3001 Mix),作者发现在平台内和平台之间的分类组成都有很大的变化(A)。虽然平台内的复制彼此高度相似(除了Ion Torrent PGM),仍检测到平台特定的成分(B)。与测序平台无关,分类组成明显受每个分类单元的GC含量的影响(C)。各平台比拼:细菌基因组捕获的影响因素主要为菌种差异和测序平台差异。在各个平台中,ThermoFisher的Ion PM和S5平台在错误率角度略胜一筹。对于复杂的宏基因组样本,所有平台都能够识别混合物中的所有菌株,但对基因突变的捕获水平差异较大。

 

全文总结:

目前,海量的DNA-seq数据可以作为一个强大的基准资源,促进临床应用的进一步标准化,以及评估新的方法、化学和方案。但评估大规模平行DNA-seq平台的重现性、准确性和实用性仍然是一个挑战。本文在GIAB、the Global Alliance for Genomic Health和UCSC提供的资源的基础上,对当前新兴测序技术进行了公正的评估。测评了不同测序技术和平台的性能,这些发现可以为测序平台的选择和分析提供重要的参考信息。

参考文献

[1] J. Foox, S.W. Tighe, C.M. Nicolet, J.M. Zook, M. Byrska-Bishop, W.E. Clarke, M.M. Khayat, M. Mahmoud, P.K. Laaguiby, Z.T. Herbert, D. Warner, G.S. Grills, J. Jen, S. Levy, J. Xiang, A. Alonso, X. Zhao, W. Zhang, F. Teng, Y. Zhao, H. Lu, G.P. Schroth, G. Narzisi, W. Farmerie, F.J. Sedlazeck, D.A. Baldwin, C.E. Mason, Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study, Nat Biotechnol, 39 (2021) 1129-1140.

盘点各大DNA测序测序平台

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 2022年最新肿瘤相关成纤维细胞(CAFs)生信思路多角度总结
相关文章