基因组组装评估

越来越多的动植物、细菌真菌的基因组被公布出来,目前对于De novo组装的基因在准确性方面的评估手段相对比较少,评估效果有的时候也并不是很理想。
常用评估方法:
1、组装指标Contig和Scaffold指标(这个在错连较少的情况下,越高越好);
2、二代数据或三代校正后的数据与基因组比对,通过Mapping率和覆盖度评估序列一致性,回比率越高组装效果越好;
3、通过EST或转录组数据与基因组比对情况评估基因区的完整性。
4、保守区域评估,常用的软件有BUSCO和CEGMA(这个之前发表的文章有详细介绍)。
5、光学图谱、BAC序列或Hic数据也可以验证组装Contig的准确性。
基于统计模型评估新方法
下面小编给大家介绍另外的一个评估组装错误的软件Combined Error Score (CES),它主要是根据一个统计模型,基于特定大小的滑动窗口构建Local Genomic Profile (LGP)来评估参考基因组组装或感兴趣区域的准确性。下图是构建LGP的图示:
步构建LGP,基于区域的表征分成4中情况,每种情况有它相应的一个算法。
第二部使用构建的LGP对基因组或一些感兴趣的特定位点得到CES值,通过这个值判别组装位点准确性。
接下里用Arabidopsis thaliana、Saccharomyces cerevisiae、Aeromonas hydrophilia和Homo sapiens这些研究比较多的模式物种,挑选不同版本基因组或不同软件组装结果进行验证,结果如图。
软件使用方法:
步:java -jar gopro2.jar -build -r assembly.fasta -ws 500 -b samples.list -o profile,给个参考基因组,指定划窗大小,将NGS数据比对结果文件名放到list里面。
第二步:java -jar gopro2.jar -test -target loci_of_interest.bed -p profile -o test_output
最终结果有三列chr、start、end和ces,我们可以根据ces值进行判定准确性。
小编心得
组装已经基因组ContigN50指标必然是越长越好,但是必然会出现一些错连的地方,这个就需要结果多方面数据进行评估,如PacBio、Bionano和Hic。PacBio的reads比较长通过Mapping到基因组看下覆盖情况,可以大致确定组装可靠性;Bionano数据是通过酶切位点匹配情况来判断Contig连接正确情况,但光学数据测得质量、基因组复杂情况(高杂合或多倍体)都会影响判断准确性;Hic评估方法对基因组进行拆分,然后利用Hic数据还原,这时候也会找到一些错装位点。NGS数据通常测深度比较高,数据回比可以简单评估De novo组装结果完整性,回比率低,说明组装结果很差,换方法重新装吧。
基因区这块的评估方法主要是利用EST和转录组数据,看下能比对到基因组序列比例。再有就是CEGMA和BUSCO这种评估保守序列的手段,这些是基于一些已有模型来评估进行预测,在对一些研究较少的物种可能效果不是太好。
注:以上均为个人见解。
参考文章
José Carbonell-Caballero, Alicia Amadoz, Roberto Alonso, Marta R.
Hidalgo, Cankut Çubuk, David Conesa, Antonio López-Quílez, Joaquín
Dopazo; Reference genome assessment from a population scale
perspective: an accurate profile of variability and noise, Bioinformatics, , btx482, https://doi.org/10.1093/bioinformatics/btx482