基于空间转录组的细胞类型识别工具RCTD

admin 25 2025-01-26 编辑

空间转录组的一大生物学贡献,就在于其能够识别出不同细胞类型,在不同的细胞环境及细胞状态下的空间组成。然而,由于空间转录组的数据,其样本来源并非单一的细胞类型,且在样本构建时,不同细胞中的RNA会出现扩散,从而导致了转录组中一个像素包含来自多个细胞的RNA,因此,使用单细胞转录组中常用的细胞类型判别方法(非监督聚类),就会错误的判别那些在空间上距离较近,但在转录上并不相似的细胞(距离A类细胞的RNA扩散到了临近的B类细胞上,使得B类细胞被错误识别)。

Slide-seq得出的小鼠脑干中细胞类型为Granule细胞标志基因的read数(b)及被错误标记为Granule细胞的位点(c),错误标记的原因是该区域可能包含多种细胞类型

另一类细胞类型识别的方法,是有监督的聚类,该类方法会受到平台差异的影响,在某一种平台上训练得出的模型,在训练集中表现显著优于另一平台,例如基于单细胞核转录组(sn-RNA)得出的数据,其在sc-RNA上的表现就很差,这使得该类方法缺少可扩展性。

左图sn-RNA数据训练的细胞类型分类算法的混淆矩阵热图,右图是该模型在sc-RNA数据上的混淆矩阵,可见其差距明显

而新提出的RCTD(鲁棒的细胞类型分解),其使用同一组织和物种单细胞转录数据集作为参考,对输入的空间转录数据,通过最大似然估计,判定其每一点中包含了那一个或多个细胞类型(两种不同的模式),同时确定每种细胞类型的比例。

RCTD的输入输出示意图

使用单细胞数据,可以按照不同的比例,模拟一个像素点包含多个细胞类型的空间组数据,之后在sn-RNA数据做训练集,sc-RNA数据做测试集,通过RCTD对其进行判别,其相关系数r2达到了0.9,其混淆矩阵如下,说明该方法的鲁棒性,在一类数据集中训练后的模型,适用于另一类数据集。

RCTD在小鼠脑干模拟数据中,采用每个像素单个细胞模式预测得出的混淆矩阵

当模拟数据中,一个像素点中的细胞类型,包含两种时,可使用RCTD中的doublet模式,让算法识别出两种而不只是一种类型,下图是不同比例的组合下,95%的置信空间下,正确识别的比例,可见两种细胞混的越均匀,识别正确的概率越大,最高达到81.1%,而错误识别的部分,87%是由于两种转录上相近的细胞,被错误的识别为只包含单一细胞类型。

不同比例的细胞类型下,doublet模式下的分类准确度

对于包含3-4种细胞类型的情况(分辨率较低的空间转录数据),或者每个像素平均包含超过100条UMI的空间转录数据(分辨率高),该方法都适用。以上说明了RCTD可以应对包含多种情况的空间转录数据。

之后在真实的小鼠小脑的slide-seq数据上,使用RCTD,以sn-RNA数据为参考集,进行细胞类型标记,判定其中86.9%的细胞被成功标记。

小鼠脑干被标记的细胞类型可视化

由于空间转录组上对应的细胞类型,没有确定的金标准,因此其准确性验证,是通过多种方法间接完成的,首先是在单个和两个细胞模式下,判断的细胞类型和其标志基因表达量的关系,下图说明了无论在那种模式下,预测出的细胞类型其在对应的标志基因上高表达。

在单个细胞或两种细胞模式下,被标记的细胞对应的标志基因表达量的散点图

在识别两种细胞的模式下,RCTD的表现,符合已有生物学知识对小鼠小脑层次的划分,最外层为Oligodendrocyte细胞,之后为Granular层,最内部为Molecular层,其中标志基因的密度,和被标记后的细胞权重是能一一对应的,这都说明了RCTD的准确性。

两细胞类型模式下,RCTD识别出细胞类型权重(右图)和标志基因的UMI数量(左图)

RCTD还能识别细胞亚型,在小鼠海马体分辨率为250um的slide-seq数据中(在Visuim数据中也可以识别出),其可以识别出已知的27中神经元间细胞中的25类,如下图所示:

RCTD识别出的小鼠海马体中的细胞亚型

之前检测空间表达上有差异基因的方法,是没有考虑细胞类型这一信息的。由于不同类型的细胞在空间上的表达并不均匀,且其间存在着差异,容易出现将细胞类型对应的marker基因错判为空间表达有差异的基因。如下图找到的空间上自我相关系数(autocorrelation)大的基因,如果不考虑细胞类型,会显著大于随机选取的基因,这意味着这些基因在空间上的表达,有更高的相似性,而说明基因表达的空间差异在很大程度上是受少数类型的细胞影响的。

忽略细胞类型找到的空间表达差异基因的自相关系数的箱线图

而RCTD会在考虑了细胞类型后,去识别出剩余的空间表达差异其识别出AC3类型的细胞内部的空间差异表达基因,其自相关系数的箱线图显著高于忽略细胞类型时的情况,这说明了该方法可识别特定类型细胞内部,,排除了细胞类型影响后幅度较小的,但在空间上存在差异表达的基因。

在AC3细胞内部,忽略或不忽略细胞类型,找到的空间表达差异基因的自相关系数箱线图

RCTD识别出在兴奋性神经元中,Ptk2b基因只会在该类细胞株存在空间差异表达,在其它类型的细胞中不会呈现该模式,这指出RCTD可以识别不仅仅由细胞类型解释,而是由细胞环境促成的空间表达差异。

总结:

该文提出的RCTD,可以使用于多种单细胞及空间转录测序平台,利用已有的参考数据,得出细胞类型标记。虽然该方法最初是为了空间转录开发的,但其也可以用于bulk转录组中细胞类型及组合比例的判定上。RCTD基于R语言,其开源包可在https://github.com/dmcable/RCTD下载。

RCTD依赖的假设是,对于不同的细胞类型,其平台差异是相等的,但这一假设并不一定成立。另外,该方法在空间转录数据包含单细胞参考集中不存在的细胞类型时,会遇到问题,解决方案是选择那些已知特定细胞类型的区域进行分析。

基于空间转录组的细胞类型识别工具RCTD

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 刻画非小细胞肺癌中的驱动基因突变
相关文章