Science 重磅:泛基因组比对工具Griaffe,短序列检测结构变异

admin 19 2025-01-24 编辑

 

基因组分析,数十年以来,都是先将测序数据,比对到一个线性的参考序列上,之后进行变异检测。但当样品和参考基因组存在较大差异,或种群多样性较高时,受限于线性的参考基因组带来的比对偏向性,会影响变异检测的准确性和敏感性。而采用包含已知变异信息的图结构做参考基因组,基于此进行变异检测,被称为泛基因组,是未来大人群研究的新方向。

 

图参考基因组范例,其中的每个环状结构,代表种群上的变异

Science12月16日的论文“Pangenomics enables genotyping of known structural variants in 5202 diverse genomes”,介绍了美国加州大学开发的泛基因组比对工具Griaffe,相比常用的bwa,其速度更快,结合变异检测工具vg,能够更准确的检测长度大于50bp的结构变异。

 

 

Griaffe的运行速度,相比之前的图参考序列比对工具,要快一个数量级,比常用的BWA minimap2,也快了50%,见下图

 

对于二倍体,杂合变异的两种碱基,在比对中所支持的比例理论上应该是50%,偏离该比例,说明比对存在偏向性,在低深度时会影响变异检测的准确性。下图对比了使用bwa比对到hg19参考基因组和使用vg-map和Griaffe两种图比对工具(比对到基于千人变异构建的图参考序列)之后使用bcftools mpileup和call进行变异检测后,不同长度的Indel和SNP中,突变型支持的碱基比例。可以看到两种图比对工具,在各个长度都接近50%,但bwa比对,随着变异长度增长,会出现变异型比例下降的趋势,这与短序列对较长indel的检出率下降相关。

在标准品HG002上,比较使用不同比对工具,结合Deep variant进行变异坚持得到的结果,左图比较的是杂合的snp位点,其中使用Griaffe得出的结果,假阳性和假阴性都更低。而右图则是比较长于50bp的插入删除的准确性,可以看到使用Griaffer后,F1在全基因范围和高可信度范围,能达到0.9左右,说明Griaffe能以更快的速度,达到和之前的图比对工具在结构变异检测上相同的精度。

之前的全基因组研究,受限于方法学,多关注单碱基变异或短的插入删除,而对结构变异,缺少准确且全面的检测方法。该论文通过使用三代长读长序列检测到的变异为金标准,对不同人群的5202人(包含全部千人基因组的样本)的结构变异进行检测,指出使用泛基因组的工具,可基于短序列,对结构变异进行更精准的检测。

具体流程如下图,先从比对生成的cram文件中,结合图参考基因组的index文件,拿到原始的read文件,之后使用Griaffe进行比对,再进行结构变异的变异检测,其中大部分的计算,都花在比对上,单样本全流程的核时数在206小时,相比传统的全基因组分析更快。右图比较了使用不同的图参考基因组后,长的插入和删除的平均F1值,相比之前的结构变异检测更准。

对得出的结构变异,进行PCA分析,可以得出和snp类似的结果,见下图,这意味着在人群中,不同种族在结构变异上存在着频率差异,例如VNTR基因上的变异,在非洲人群中出现的比例超过14%,而在其它人群中低于3%。

Griaffe的安装和使用都很简单,github上有编译好的二进制文件,下载后可在linux平台直接运行。之后可以基于参考基因组和变异的vcf文件,构建图参考序列的index文件,推荐选择和研究人群相近的群体,或者多样性高的群体变异信息(需包含每个个体的变异情况)

命令如下:

vg construct -r small/x.fa -v small/x.vcf.gz >x.vg

构建好的图参考序列,可以进行可视化,或压缩为二进制文件节省存储。

之后的比对过程,先生成后缀为gam的图比对结果,之后转换为常用的bam文件,可进行接下来的变异检测,命令如下:

vg map -T x.sim.txt -x x.xg -g x.gcsa > aln.gam

vg surject -x x.xg -b aln.gam > aln.bam

新检出的样本上的变异,还可以用来扩展参考序列的多样性,即叠加式的构建更准确的图参考基因组,该操作的输入是图参考序列和比对生成对的.gam文件,输出是增强后的参考序列,对应的命令是;

vg augment x.vg aln.gam -i -S > aug_with_paths.vg

之后的变异检测,可以基于bam文件,使用传统的Deep variant这样的工具,也可以使用vg,以.gam文件为输入,通过以下命令得到检测结果:

vg pack -x x.xg -g aln.gam -Q 5 -o aln.pack

vg call x.xg -k aln.pack > graph_calls.vcf

对于多样本的情况,可以使用bcftools merge,对检出的变异进行合并。对于结构变异,该研究中将删除或插入位置在20bp之内,且序列相似度在80%以上的变异,在群体上合并,据此计算人群频率,通过RepeatMasker进行功能注释。

类似基于比对结果,对参考基因组进行增强,将新发现的变异加入参考基因组中,vg也支持输入为vcf格式的图参考基因组增强,或使用局部组装得出的长序列,通过vg mpmap命令比对到参考基因组上,构建描述结构变异多样性的图参考序列,之后使用vg concat命令,将图参考基因组合并,得到用于结构检测检测的图参考序列。

对于转录组数据,也可以使用vg进行比对,从而应对不同的可变剪切带来的比对偏向性。先是基于线性参考基因组,变异信息,和注释文件,构建图结构的index

vg autoindex --workflow mpmap -t 4 --prefix vg_rna --ref-fasta small/x.fa --vcf small/x.vcf.gz --tx-gff small/x.gtf

之后进行比对

vg mpmap -n rna -t 4 -x vg_rna.spliced.xg -g vg_rna.spliced.gcsa -d vg_rna.spliced.dist -f small/x_rna_1.fq -f small/x_rna_2.fq > mpmap.gamp

泛基因组分析,是大规模人群基因组未来的发展方向,不论对于人群,动植物还是微生物,使用包含变异信息的图参考序列,都能更好的应对基因多样性带来的偏向性。通过引入高性能图基因组比对工具griaffe,降低了使用图参考序列的门槛。具体首先体现在之前的比对工具,相比bwa慢4-5倍,而新工具比bwa更快,其次是通过支持将图参考序列的比对结果转换为bam格式,使得现有的变异检测等分析工具可兼容使用。新研究还通过了大规模人群数据,说明了短序列使用图参考序列,可以得出准确的结构变异检测结果,其人群变异携带频率和之前研究相符合。最后,vg还可以基于从头组装的结果,构建图参考基因组,随着未来de novo组装研究的增多,这将取代基于变异信息构建的图参考序列,称为泛基因组研究的新方向。

Science 重磅:泛基因组比对工具Griaffe,短序列检测结构变异

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 癌症干细胞的生物标记物分析思路详解
相关文章