基因组评估方法介绍

admin 46 2025-02-14 10:40:08 编辑

基因组组装评估

    越来越多的动植物、细菌真菌的基因组被公布出来,目前对于De novo组装的基因在准确性方面的评估手段相对比较少,评估效果有的时候也并不是很理想。

常用评估方法:

1、组装指标Contig和Scaffold指标(这个在错连较少的情况下,越高越好);

2、二代数据或三代校正后的数据与基因组比对,通过Mapping率和覆盖度评估序列一致性,回比率越高组装效果越好;

3、通过EST或转录组数据与基因组比对情况评估基因区的完整性。

4、保守区域评估,常用的软件有BUSCO和CEGMA(这个之前发表的文章有详细介绍)。

5、光学图谱、BAC序列或Hic数据也可以验证组装Contig的准确性。

基于统计模型评估新方法

    下面小编给大家介绍另外的一个评估组装错误的软件Combined Error Score (CES),它主要是根据一个统计模型,基于特定大小的滑动窗口构建Local Genomic Profile (LGP)来评估参考基因组组装或感兴趣区域的准确性。下图是构建LGP的图示:

步构建LGP,基于区域的表征分成4中情况,每种情况有它相应的一个算法。

第二部使用构建的LGP对基因组或一些感兴趣的特定位点得到CES值,通过这个值判别组装位点准确性。

 接下里用Arabidopsis thaliana、Saccharomyces cerevisiae、Aeromonas hydrophilia和Homo sapiens这些研究比较多的模式物种,挑选不同版本基因组或不同软件组装结果进行验证,结果如图。

软件使用方法:

步:java -jar gopro2.jar -build -r assembly.fasta -ws 500 -b samples.list -o profile,给个参考基因组,指定划窗大小,将NGS数据比对结果文件名放到list里面。

第二步:java -jar gopro2.jar -test -target loci_of_interest.bed -p profile -o test_output

最终结果有三列chr、start、end和ces,我们可以根据ces值进行判定准确性。

小编心得

    组装已经基因组ContigN50指标必然是越长越好,但是必然会出现一些错连的地方,这个就需要结果多方面数据进行评估,如PacBio、Bionano和Hic。PacBio的reads比较长通过Mapping到基因组看下覆盖情况,可以大致确定组装可靠性;Bionano数据是通过酶切位点匹配情况来判断Contig连接正确情况,但光学数据测得质量、基因组复杂情况(高杂合或多倍体)都会影响判断准确性;Hic评估方法对基因组进行拆分,然后利用Hic数据还原,这时候也会找到一些错装位点。NGS数据通常测深度比较高,数据回比可以简单评估De novo组装结果完整性,回比率低,说明组装结果很差,换方法重新装吧。

基因区这块的评估方法主要是利用EST和转录组数据,看下能比对到基因组序列比例。再有就是CEGMA和BUSCO这种评估保守序列的手段,这些是基于一些已有模型来评估进行预测,在对一些研究较少的物种可能效果不是太好。

注:以上均为个人见解。

参考文章

José Carbonell-Caballero, Alicia Amadoz, Roberto Alonso, Marta R. Hidalgo, Cankut Çubuk, David Conesa, Antonio López-Quílez, Joaquín Dopazo;  Reference genome assessment from a population scale perspective: an accurate profile of variability and noise, Bioinformatics, , btx482, https://doi.org/10.1093/bioinformatics/btx482

 

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 顺式作用元件与反式作用因子
相关文章