NBT-空间转录组的超高分辨聚类方法BayesSpace

admin 3 2025-02-08 编辑

 

空间转录组能够在保留空间信息的前提下,检测基因表达量。然而当前的计算方法,并不能利用空间转录组提供的位置信息。同时受限于测序技术的检测分辨率,无法做到单细胞的分辨率。6月3日“自然生物技术”的论文Spatial transcriptomics at subspot resolution with BayesSpace,提出基于贝叶斯统计的聚类方法,可以利用位置信息提升聚类后的空间分辨率。

当前的空间转录平台10X Visium的分辨率是55微米,在该分辨率下,每个格子会包含1个到多至30个细胞,这样每个格子中的转录信息,就会是该区域所有细胞的平均值,但要想获得具有生物学意义的数据,就需要分辨率达到单细胞层次。

当前利用到位置信息的空间转录组聚类方法,有两种,一是基于隐式马尔可夫随机场(Giotto包),另一个是使用深度学习,结合组织病理学切片图片来提升聚类分辨率的stLearn。而BayesSpace借鉴了之前利用空间信息,对图像进行聚类的经验,通过设置先验概率,让聚类近的格子有更高的先验属于同一个聚类,由此利用空间信息。

BayesSpace如何利用空间信息:对于两个共享同一个边的格子,其聚类位于同一类的先验概率更高

BayesSpace的具体流程

上图展示了BayesSpace的工作流程,先对标准化后的转录矩阵,进行聚类,使相邻位置的数据能够更容易的聚在一起,之后利用空间信息,在更高的分辨率上修正聚类结果,最后基于更高精度的空间聚类,去预测基因表达量,并据此进行差异基因的寻找和分析。

对于使用者来说,BayesSpace作为一个R包,安装方便,可使用R的Bioconductor中的 SingleCellExperiment作为输入,并不需要格式转换,也不需提前选出标志基因,其需要调整的参数也很少,这让其使用方便。相比其它空间转录组聚类方法,其所需的计算时间和内存也位于同一数量级。在对12个背外侧前额叶皮层样本的Visium数据进行聚类时,其耗时对比如下图所示:

不同聚类方法的时间和内存消耗

使用评价聚类好坏的Adjust Rand Index指标,在已知真集(手动对组织信息进行注释)的数据集上,评价不同的聚类方法,其结果如下图

12个样本的聚类准确度散点图,可以看出BayesSpace的准确性最高

进一步的实验,使用BayesSpace得出的前15个主成分,作为其它方法的输出,以期得到更完整的对比,从中可以看出,这么做不会提神stLearn和Giotto的聚类性能。

使用BayesSpac算法得出的前15个主成分,不能提升其它空间聚类方法的准确性

下图对比了使用包含了空间信息的三种方法(第二行),以及不利用空间信息的聚类方法(第一行)在特定样本上聚类结果。

不同聚类方法对特定样本的聚类

第一行的方法,虽然分辨率更高,但是其中会出现聚类A的点零散的出现在聚类B中的情况,这是不符合生物学原理的(相近表达量的细胞聚在一起),而对于第二行的三种方法,BayesSpace的结果,看起来分辨率高于Biotto,也没有像StLearn’那样出现参差不齐的现象。

除了更好的聚类,BayesSpace还可以提升空间转录组聚类的分辨率,下图对黑色素瘤样本的原始聚类包含293个格子,经过BayesSpace提升分辨率后,可以看到更精细的空间结构,并能够据此更准确的找到不同组织的标志基因,从而使差异表达分析变得更具有生物学意义。该文还通过免疫组织化学验证了提升的分辨率是具有生物学意义的。

除此之外,BayesSpace还能够识别出肿瘤组织的的组织间异质性,识别出良性和恶性肿瘤的边界。总结来看,由于BayesSpace假设实验误差符合T分布,其对于实验误差造成的异常值更加鲁棒,该方法之后通过马式蒙特卡洛,进行模型的参数估计,相比基于最大似然法的Giotto,能够更完备的探索参数空间,从而得出更准确的聚类结果。

通过分辨率提升后,在Visuim平台的数据上,能够在每一个子方格中,平均包含3个细胞,这样的数据,除了能够找出之前没有被观测到的空间基因表达模式,对于下游的分析,包括差异基因表达,空间异质性分析,于单细胞数据的整合分析,都提供了便利。而使用BayesSpace方法给出的主成分,结合Dirichlet回归模型,还可以进一步提升分布率,或和其它诸如UMAP的聚类方法结合使用,该方法也可以对包含多个样本的数据进行聚类。

NBT-空间转录组的超高分辨聚类方法BayesSpace

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 经典核心基因视频获取,7天有效
相关文章