单细胞转录组差异表达分析中,存在着普遍的假阳性

admin 117 2025-01-16 编辑

 

在单细胞转录组分析中,差异表达分析是必不可少的一步,也有诸多对应的统计方法,然而这些方法的准确性,取决于其能否具有在类似样本中被重复,如果忽略了不同样本间无法避免的差异,就会将样本间差异看成是导致的不同细胞间的表达量差异,从而造成虚假发现。自然通讯的论文“直面单细胞差异分析中的假阳性结果”,指出当前最常用的方法,在测试的小鼠受伤脊柱细胞中,会会在没有生物学差异时,发现上百个虚假的表达量差异。

1用于检验的金标准数据集

为了判别是否为假阳性的检测,该研究采用了在相同的细胞类型,相同的实验环境以及相同实验室测序的单细胞和bulk RNA测序,将bulk RNA中找到的细胞间差异当成是真实的,该研究通过文献调研,找到了八个这样的差异数据集。

用于检测表达量差异的统计方法,选取了最常用的14个,这些方法加起来,使用量占据了当前相关研究中的近90%,下图是使用方法的在单细胞研究中出现的次数。

其中的方法,可以分为三类,将bulk RNA中出现的表达量差异当成真集,可以看到pseudobulk的方法,其和金标准的一致性最高。这类表现最好方法的共同之处,是其会将相同条件下的单细胞数据先进行整合,形成伪bulk RNA测序结果,之后再进行比较,相比直接使用单细胞进行比较的方法,pseudobulk的方法,其假阳性的概率更低。

为考察不同方法检出的表达量差异在功能上的影响,通过基因本体(Gene Ontogeny)上进行注释,之后比较其和金标准的一致性,其中仍然是pseudo-bulk的方法表现最佳,这说明检出的假阳性差异基因,有着对应的生物学功能,会影响下游分析。

单细胞数据和对应的bulk数据,在低表达量的基因上,更容易出现假阳性的表达量差异检测,如下图所示,在低表达量的基因上,由于个体差异,导致不同类型间细胞中检出的表达量差异,不论哪种方法,都更和金标准一致率更低。

将基因按表达量分为高中低三档,使用多种判定方法,都是表达量高的基因其一致性更高。

基因的平均表达量在该样本中的相对位置越高,其存在差异表达的判定越准,和金标准的一致率越高

之后,通过实验论证单细胞分析中,存在着广泛的假阳性。通过spike in技术,可以在细胞中加入等量的一百种mRNA,这些mRNA对应的基因,并不应该被识别为差异表达基因。但在单细胞转录组分析中,最常用的判定差异表达的方法:秩和检验中,该方法会将平均表达量越高(横轴)的基因,以越高的置信度(纵轴,p值得对数结果)被判定为存在差异表达,而psuedo bulk的方法(右图)则不会这样,这进一步,通过实验说明了常用的判定方法会带来假阳性。

人工加入的等量表达基因,被错误的当成存在差异表达的基因,其平均表达量越低,其存在表达量差异的p值,在秩和检验下就越大。

基因的平均表达量在该样本中的相对位置越高,其存在差异表达的判定越准,和金标准的一致率越高。

为避免假阳性,一种方法是采取重复样本,之后合并分析。但如果生物学重复之间存在显著差异,那么这种情况下,采用重复样本后,仍然有可能会识别出假阳性的差异表达。为说明这一现象,该研究通过模拟数据,对比组间异质性高和低的重复样本,在使用了数据合并后,能否减少检出的差异基因中假阳性的比例。模拟数据包含了10份来自同一类细胞的重复,随机分为对照组和病例组,之后根据不同的重复之间的一致性,发现组间异质性低的,随机分成的两类,在降维后没有差异,但对于组间差异大的,降维后随机分成的两组看上去却是有差异的。

不论重复样本的组间表达量差异,由于其具有同样的生物学属性,不应该有表达量差异,但实际采用秩和检验,以及采用pseudo bulk方法,在组件表达量差异较大时,都会找到对应的表达量差异基因,这说明此时使用重复样本,如果样本间的差异较大,也无法避免假阳性的差异基因检出,但通过构建伪bulk的方式,可以减少假阳性的发现。

采用了对照重复样本(模拟生成后)检出的差异基因(皆为假阳性)数量,当组间差异较大时,使用伪bulk的方法,虽然比秩和检验检出的假阳性数量少,但并不能如真实的重复对照,减少假阳性的差异基因检出。

 

在14个包含至少6个对照样本的单细胞数据中,同样可以看出,使用pseudo bulk的方法,得到的假阳性差异表达明显小于单个细胞去检测的方法。

在小鼠脊柱的空间转录组中,通常也使用单细胞转录组采取的方法来检出差异基因,此时将对照组随机分为两类,生成的不应有差异的样本,对比pseudo bulk的方法edgeR-LRT以及秩和检验,同样发现pseudo bulk的方法,在各个组织间,其产生的假阳性检出明显更少。

之后,在真实的,经过验证的数据集上,对比单细胞测序,由pseudo bulk法检出的差异表达基因Igbp6,以及秩和检验检出的prex2,前者可以从表达量的箱线图,看出其中确实和RNAscope检出的结果类似,而对于秩和检验检出的prex2,其均值相同,但由于细胞间差异量大,也被非参数检测,判定为存在差异,而这就是一个假阳性的发现。

之后再经过实验验证,发现同一批数据,使用pseudo bulk的方法,检出的差异基因,其中5/6是可以被验证的,而秩和检验的结果,只有不到25%的差异基因可以被实验验证。

总结,该文指出,单细胞转录组由于检测灵敏性的问题,有可能产生虚假的差异表达基因,假阳性的多少,取决于使用的统计方法,以及重复对照样本的组间异质性。相较于常用的分参数检验,psuedo -bulk的统计方法,假阳性率更低,组间差异越小,假阳性率越低。该研究还指出虚假发现是单细胞转录组及空间组中一个普遍存在的现象。差异表达检出的假阳性如此之多,不仅会加重科研的可重复性危机,还会造成很多科研经费被浪费在无意义的验证实验上。这突显了学术界必须采用适当的统计方法,防止虚假发现的扩散。

 

 

单细胞转录组差异表达分析中,存在着普遍的假阳性

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 小身体,大能量:Top期刊下的癌症微生物
相关文章