单细胞转录组数据集合与迁移新方法 inClust

admin 20 2025-01-29 编辑

​大家好,今天分享一篇近期发表在Cell Report Method(IF: 8.8)的文章,该文章主要展示了名为inClust的单细胞转录组数据集合与迁移新方法,可在有监督,半监督,无监督三种模式下灵活地进行数据集成、分解、查询等多项任务。作者是来自浙江树兰国际医学院的王令飞。

论文题目:A deep generative framework with embedded vector arithmetic and classifier for sample generation, label transfer, and clustering of single-cell data

论文地址:https://www.cell.com/cell-reports-methods/pdf/S2667-2375(23)00202-3.pdf

相关工具链接:https://github.com/wanglf19/inClust

背景

随着单细胞数据的快速增加,如何集成多批次多平台多样本来源的数据,成为发好文章必须解决的问题。不同批次、不同实验条件以及不同测序技术的数据,会由于实验自身的差异导致将不同类型的数据汇集使用时,呈现的模式并非对应样本自身的特征,而反映了不同样本来源的信息,如的聚类结果所示,其中每个点代表一个细胞,b中的颜色代表细胞类型,其中不同颜色对应细胞类型,然而相同类型的细胞并没有被聚在一起,与之对应的,在c中,不同批次的数据聚类后明显地聚成一簇,在此基础上进行数据分析,会导致下游结果错误。因此需要有生信工具,将数据整合。

:未进行数据整合前的多批次单细胞转录组聚类情况

作为一种灵活鲁棒的生成模型,inClust可在有监督、半监督及非监督三种模式下运行,且表现优于多种现有方法。当所有数据来源的细胞都有细胞类型标签时,inClust可将数据整合,并生成于原数据分布不同的模拟数据(b);当部分数据包含有标签时,inClust可以半监督的模式运行(c),根据有标注数据进行标签迁移,预测未标注细胞的细胞类型;而在所有数据都没有标签时,inClust的无监督模式可对数据进行整合及聚类。

:inClust三种运行模式的示意图

结果

inClust三种运行模式的结果展示

对比聚类前后的UMAP聚类情况,整合前不同聚类间大多包含了多个批次,整合后同类细胞聚在一起,很少混杂且分的更开。这可从直观上说明inClust性能优异。而与现有同类主流72种算法的对比(),可以看到inClust的总得分排第一。

inClust在标准数据集上与多种现有方法的对比。

:Inclust在有监督模式中,预测基因环境互作的影响

通过将受环境影响与否当成协变量交由inClust预测不同环境或调控机制中的差异表达基因,inClust可以准确地表示数据整合后的每个协变量对表达谱的影响,见。例如当CBL和CNML基因之间的互作(a);ETS2和DUP9之间的上位效应(b);MAP2K3和MAP2K6之间的冗余互作(c),以及MAPK1和PRTG之间的抑制作用(d)。图e-g展示了与现有方法GAP在预测准确性上的对比。

:inClust在半监督模式下的标签迁移

a为半监督模式下的流程图。b为整合前有标签数据集与两个无标签数据集聚类的情况,经过数据整合后,同一个聚类包含多来源数据(c),经过有指导的聚类后,得到d与e,分别对应有标签与无标签的细胞,其中无法聚类的点很稀疏,说明大部分待标注的数据能被标注;而g展示了预测结果和正确标签的差异,说明inClust预测准确率很高.

在半监督模式下,inClust可通过无监督聚类识别查询数据集中潜在的新细胞类型。与人类心脏数据集和 ccRCC 数据集的对比表明,inClust 可以捕获在正常与疾病条件下表达谱存在差异的新的细胞细胞类型。可在邻近正常组织样本和肿瘤组织样本之间转移标签,识别肿瘤组织中的转移性肿瘤细胞。

通常空间上相邻的细胞,属于相同的细胞类型。因此经过处理及细胞类型标注的空间转录组数据,会有清晰的边界。inClust 可将空间坐标作为协变量,对空间转录组数据进行聚类(a),相比d使用 k-means 聚类的结果,inClust的聚类更清晰(c),评分也更高(e),这说明了 inClust 可在无监督的模式下对空间转录组进行聚类。

:InClust在无监督模式下,对小脑的空间转录组数据进行聚类

小结

一个细胞的表达谱受到多个协变量的影响,或者是生物的(例如条件、刺激物) ,或者是非生物的(例如批量、技术)。不同的协变量组合通常导致不同的转录谱。随着技术的发展,产生了包含多种来源信息的复杂数据集,可以作为聚类的输入。传统的聚类方法只从一个来源获取信息(例如,基因表达)。因此,需要集成来自多个来源的信息进行聚类,并准确预测不同来源的协变量造成的影响。

相比其它方法,InClust 的优势在于其模块在实现上是独立的,但在运行时是相互关联的,可在同时完成数据整合与协变量相关的模式寻找(数据拆分 data decomposition)。嵌入模块可以将任意向量(协变量)嵌入到潜在空间中,从而不仅整合样本来源信息,还有潜力将来自不同组学的信息汇总,从而进行多组学分析,例如将不同样本的特定基因甲基化程度作为协变量)。矢量算术模块可以通过减法去除不必要的协变量,也可以通过加法合并协变量,灵活地对信息进行集成。聚类模块不仅可以对包含多个来源信息的潜在空间向量进行分类,还可以灵活地利用数据中的标签信息,使模型成为一个全通用的深层生成框架,可以在从全监督、半监督以及无监督这三种模式下进行聚类。

由于inClust 中的 VAE 包含两部分隐空间,使其不像基于自动编码器的模型那样容易受到过拟合风险的影响。inClust 被证明对数据缺失具有鲁棒性;额外的噪声不会影响 inClust 的性能。简而言之,inClust 是单细胞转录组学领域多任务协调和分解的理想框架。

单细胞转录组数据集合与迁移新方法 inClust

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: TIP教你不写代码发5+生信分析
相关文章