对于单细胞转录组数据,除了常规的分析,还能够看点突变(SNV)的在不同细胞间的区分。近期Science Advance的论文“scAllele: A versatile tool for the detection and analysis of variants in scRNA-seq”介绍的ScAllele,就是一款针对单细胞转录组数据开发的多用途变异检测分析工具。
论文地址:https://www.science.org/doi/10.1126/sciadv.abn6398
1)算法概述
可变剪切是RNA高级分析中的一项关键任务,围绕可变剪切带来的剪切异构体(splicing isoform),以及位于调控区的点变异导致的表达量差异,都有着临床价值。在bulk RNA测序数据中,检测点变异的方式,是对比对结果,使用在WGS分析中常用的GATK或Freebayes去做变异检测。然而在单细胞转录组数据中,由于数据的稀疏导致已有方法无法进行变异检测。
scAllele不仅可以在测序深度较低时,检测单碱基突变与小的缺失删除。通过将read聚类之后进行局部组装,之后基于变异所在位置的特征(如串联重复、附近序列的碱基质量、整体等位基因比率和RNA感知的单倍型拟合)对变异的真假进行打分,综合判断变异是否为真,再利用外显子区域变异的read和内含子区域的变异计算互信息,判断是否存在变异特异性剪切,具体如下图所示:
scAllele的算法概述
之后在标准品GM12878上,验证scAllele的准确性。测试数据为smart-seq检测的全长单细胞转录本数据,对比的方法为常见的变异检测工具,分别是GATK HC,Platypus 及freebayes。评价指标为检出的真阳性位点的个数,将区域分为所有区域,高可信度区域,ONT测出的变异以及NGS难以检出的区域,考虑不同的假阳性值。可以从A和B上看出,如论对于单碱基变异还是插入删除,scAllele检出的真阳性位点个数,在检出同等个数的假阳性是都更高,这说明scAllele能够准确检出变异。图c展示了对于经过一代测序验证的插入变异,scAllele能够全部检出,但其它的算法则无法全部都检出,这进一步说明了ScAllele能够检出更全的变异。
2)准确性验证
;使用金标准评价scAllele进行变异检测的准确性
针对单细胞转录组数据测序深度较低的问题,作者还评价了在不同深度下scAllele检出的真阳性位点的个数,从图c可看出,不论对于单碱基变异还是小的插入删除,在深度小于5层时,scAllele能够检出的真阳性变异更多。而在深度10层以上后,由于单细胞测序的稀疏性,导致没有区域能测得这么深,故检出的变异数趋近于0。对于杂合型变异,scAllele检出的变异的碱基比例,相比其他方法,也更接近理论预期的正态分布。
3)真实数据中的应用
之后,在两个真实的单细胞转录组(肺癌细胞与正常细胞的配对)中,使用scAllele进行变异检测,在总计96个细胞的数据上可高效完成分析(使用36 CPU时,可以在3小时内,以14G内存完成)。在更多细胞数时,可以通过切分染色体并行加速。
scAllele能够检出大量新发突变(无法通过dbSNP数据库进行注释),尤其是在插入删除类的变异中(由于之前的方法难以检出这类变异);相比具有特定突变,因此被数据库收录的癌细胞,正常细胞中检出的新发突变所占比例更高(A),癌细胞在检出的变异在记录癌症相关变异COSMIC数据库中被更多地收录。在对检出的变异进行了功能注释后,可看出正常细胞(C)与癌症细胞(CE)的变异组成有显著差异。癌细胞的变异有更大比例富集在外显子和3‘UTR区域(B),外显子区域在改变蛋白质序列、产生新抗原或调节基因表达方面的潜在作用,而鉴于3′UTRs中存在大量的调控元素(32),这些区域的遗传变异可能会改变许多过程,如mRNA的稳定性、翻译或mRNA的定位,这些都应在未来进行研究。
通过IGV,对比对结果进行可视化,可以看出两个变异特异的可变剪切事件(c)。在检测的细胞数增加后,scAllele检出的变异连锁事件数在癌细胞和正常细胞中都会增加(d);而通过对五个超高测序深度的单细胞转录组进行降采样,可以看到在深度降低时,检出的变异间连锁事件会减少(e),这说明了单细胞测序要想检出连锁变异,需要较高的测序深度。而通过将多个细胞的数据混合后找出的连锁变异和单个细胞进行对比,发现在混合数据中检出的连锁变异,(f)只有42.6%可在单细胞中检出,这说明了尽管将多个细胞的测序数据混合,能够识别出某些类型的连锁变异,但也会导致漏检,这说明了需要采取单细胞转录组的必要性。
对两对肺癌细胞与配对的正常细胞的单细胞转录组通过scAllele进行变异检测得到的结果
在找出连锁变异后,scAllele可以据此找出变异特异性剪切,a展示了正常细胞和癌细胞中找到的变异特异性剪切,可看到癌细胞中有更多的变异特异性剪切,癌细胞和正常细胞间的变异特异性剪切基本没有重合,从在多个细胞间出现相同变异特异性剪切的个数来看,可看到细胞间存在显著的差异性。之后可以根据是否只在癌细胞中出现,将变异特异性剪切分为条件相关与无关两种(c),而大部分变异特异性剪切,只在癌细胞中出现(b),且大部分只在单个细胞中出现。将找到的变异特异性剪切所在的基因进行GO注释(d),可以判断其生物学意义,例如癌细胞相关的变异特异剪切,最多发生在MHC,基因损害修复及TNFR调控上。
scAllele检出的变异特异剪切具有条件特异性,能对应到特定的生物学功能
4)总结
scAllele在基于单细胞转录组变异体检测方面优于其他流行的方法,尤其是对之前难以检出的小的插入删除类变异,scAllele的算法建立在局部组装的基础上,通过将read对齐,纠正了每个read中可能出现的测序错误,从而提高了变异检测精度。此外,scRNA-seq的联合变异检测模式,通过将多个同类细胞的数据混合在一起进行变异检测利用了数据中多个细胞的可用性。scAllele在保留单个细胞水平上变异信息的同时,能在考虑到每个细胞的单一和联合分析的情况下给出最佳的变异检测结果。而将scAllele应用于肺癌scRNA数据后,可以找出很多新发的突变,并找出单细胞中特异的变异特异性剪切,考虑到对可变剪切现象,之所以没有得到充分的探索,很大一部分是由于缺少合适的分析工具,scAllele弥补了这一空缺,并扩展了单细胞转录组数据的分析范围,使研究者可以对每个细胞的遗传景观和基因表达复杂性的潜在遗传驱动因素进行分析。