将空间组数据和单细胞数据联合分析的关键步骤,是判断出空间不同位置对应那类细胞。这被称为解卷积。虽然已有多种解卷积的方法,然而这些方法,都忽略了空间转录组,其实是带空间坐标的bulk转录组,一个位置上包含了多个细胞,也有可能属于多种不同的细胞类型。然而现有的解卷积方法,只会将一个位置标记为唯一的细胞类型。
而Nature Biotechnology 4月的论文,提出的DestVI则可以避免该问题,通过对每一个细胞类型构建生成模型,该方法可以算出空间每个位置点上不同类型细胞出现的比例。相比之前的方法,在10x Visuim数据上,该方法可以使基因表达量填充效果更好。通过将该方法应用于小鼠的淋巴和肿瘤组织,揭示了肿瘤异质性以及免疫系统对相对位置不同的肿瘤,产生了不同的反应。
DestVi的方法学示意图
对组织切片进行空间组测序的同时,对临近的样本进行单细胞测序,通过对单细胞数据进行聚类,可以知道该空间组样本中的细胞类型。之后对每一个细胞类型,通过自编码器,在隐空间中构建低维表征。同时,对于空间组中每个位点,也进使用自编码器构建每个位置,代表细胞状态的低维表征。之后根据贝叶斯推断,使用单细胞得出的低维表征,来拟合空间位置上每个点得到的低维表征,得到每个位点上不同细胞类型的比例,并根据空间位置的低维表征,对每个细胞类型分别进行基因表达量填充,根据周围细胞的表达量,去推算该细胞的表达量,并将由于捕获不完全而表达量为0的基因改为非零,避免表达量矩阵过于稀疏。
2)DestVi的方法学优势
:模拟数据的构建方法
之后的方法学验证,在构建模拟数据时,该方法也更符合真实情况。之前的方法,是将已标记的真实单细胞数据,按照已知比例在空间不同位置组合,形成模拟的空间组数据。新方法在这基础之上,构建过程中增加了对单细胞数据的随机抽样,这样模拟了真实的空间组测序中,不是每个位点都能捕获该位置细胞表达的所有基因,这使得模拟数据更为真实。
:模拟数据上,和其它方法的对比柱状图
之后通过和已知标签的斯皮尔曼相关系数,来衡量不同解卷积方法的性能,图d纵轴相关系数越高,细胞类型的判别越准确;而图e展示的,基于不同解卷积方法得出的结果,进行表达量填充后的斯皮尔曼相关系数,可以看到两者都是DestVI效果最佳。
针对下游分析,作者提出了两种自动化的分析流程,可针对单切片,也可在多切片之间比较。第一部分是在细胞类型的层面,根据GearyC自相关统计量,找出在空间上分布于特殊的位置的细胞类型(例如那些没有均匀分布的细胞类型)。第二阶段的分析精度更高,关注每个空间位置内细胞类型的可变性,这是现有方法无法实现的功能。首先选择每种类型的细胞比例足够高的空间位置,之后DestVi会提出了一种自动估计该过程中特定于细胞类型的阈值的方法,当然这个阈值也可以手动调节。之后考虑每个空间位置上,不同细胞类型的不同阈值,并计算各自的Geary‘s C统计量,只考虑比例高于的点。之后算法来会计算这些空间位置上细胞类型的变化情况。这一分析有助于突出和可视化每一种细胞类型中最占主导地位的转录程序,并探索它们对细胞位置的依赖性。为此,DestVi通过加权PCA推断空间不同位置点的状态,还可识别了与每个加权主成分相关的基因,并报告了富集的基因签名。
DestVI还提供了一种自然的方法来评估不同条件样本间,或在同一组织切片之间差异的重要性。具体来说,对于每种细胞类型,我们可以通过比较各自的Geary‘s C统计量,来比较一种特定类型的细胞倾向于在特定的生态位中共定位的程度。在基因水平上,我们可以比较不同的条件或不同的组织区域,以识别细胞类型特异性的差异表达。这种分析直接来自于我们对数据的概率表示,允许不确定性量化和假设检验。
3) DestVi在小鼠淋巴结和脑肿瘤上的应用
之后在真实数据上,使用DestV。测试数据是在小鼠的淋巴结中注入单核细胞或PBS,来模拟免疫系统应对病原菌入侵的情况。图b展示的是空间转录组的情况,图c对应的是单细胞聚类的情况,之后对每个位置不同细胞,计算其自相关系数,系数越高说该类细胞的空间表达的特征越具有空间相似性,图E对应的是每个细胞在空间不同位置上的含量分布。可以看到B细胞,单核细胞的自相关系数最大,其对应的空间表达模式也越明显(例如B细胞聚集于淋巴结外缘,单核细胞的分布不对称)。由此通过DestVI,可以确定要关注的细胞。之后将单细胞和空间组的低维表征合在一起进行表征(图J和K),并通过设色热图对IFN-1基因的表达量进行可视化,发现B细胞对应的区域,IFN-1基因表达量高,而在单细胞数据的UMAP数据中,存在细胞间差异。之后对比不同类型的样本B细胞上有哪些基因的表达量存在差异,得到图L,其中差异显著的基因经过免疫荧光(图M)可加以验证。
DestVI在小鼠淋巴结数据上的应用
之后对小鼠移植肿瘤后的免疫反应,进行单细胞和空间组测序后,使用DestVI进行解卷积。聚类之后发现肿瘤细胞,单核和巨噬细胞的空间自相关系数都接近1(,d),说明这两种细胞的分布很均匀。从图E也可以看到,NK细胞和巨噬细胞均匀的进入肿瘤组织,试图杀死肿瘤。而抗原呈递的DC细胞和辅助T细胞受体的CD8细胞都位于肿瘤边缘,标志了肿瘤的边界(图e)。
:在小鼠植入肿瘤中应用DestVI
由于对抗肿瘤的主要是单核细胞和巨噬细胞,之后对其进行了进一步研究,发现了其根据基因表达通路,可以分为3个亚群,在单细胞降维上,可以看出其对应通路的基因表达量存在差异,但无法通过聚类分开(.J),在空间分布上,这三类巨噬细胞也存在空间差异。这说明相比之前的解卷积方法,DestVI不会遗漏由于细胞亚群的存在,而被忽略的空间表达模式。同时结合在免疫和肿瘤这两种差异明显的组织样本,说明该方法的鲁棒性,适合不同来源的样本。
总结
通过深度生成模型,DestVI可以生成连续的细胞类型梯度,相比之前离散的解卷积方法,其准确性更高,由于利用了临近位置细胞类型的消息,表达量填充更准确。通过低维表征,DestVI还可以考察单细胞聚类无法区分,但在空间上呈现表达量差异的细胞亚群,找出比较同类细胞内部那些基因的表达量差异。由于存在上述优势,预期DestVI将为空间转录数据提供必要的分辨率水平,并有助于我们进一步理解局部信号环境,以及它们如何影响细胞功能和空间线索,如特定细胞亚群之间的相互作用,化学梯度和代谢物互作。