NBT最新:通过迁移学习,对单细胞转录组进行映射

admin 24 2025-02-03 编辑

 

导读:8月30日的NBT,介绍了基于深度迁移学习的单细胞转录组映射工具scArches,该方法能去除新样本和参考集之间的批次效应,可以在多模态(multimodal )参考集中进行映射,并对缺失模块进行补全。将新冠感染的细胞的转录组映射到健康细胞构成的参考集上,scArches可以找出和疾病有关的细胞状态,还能通过分享由新参考集训练的模型,在不公开原始数据的前提下,允许外部用户通过参考数据集进行细胞类型注释和映射。

诸如人类细胞图谱计划这样的参考集,改变单细胞转录组的套路。经由将新的数据映射到参考集中,可以对比由于个体差异,衰老,环境和疾病等因素造成的细胞间异质性。经由参考集,可以对新数据进行自动化注释,对不同组织,物种及疾病与否进行对比。

然而参考集通常来自多个实验室,包含多种测序技术,之前的方法,是在访问所有数据集(包括新产生的和参考集中的),对数据构建整合后的嵌入,由此去除批次效应。除了消耗的资源多,这样的方法还需要假设细胞的状态是相同的,去除只是测序带来的影响。但实际情况中,该假设通常是不满足的。

迁移学习在图像及自然语言处理上,都有广泛的应用,例如ImageNet和BERT。在单细胞转录组中,迁移学习也被用于数据降噪,差异分解,细胞类型分类等任务。对于scArches,其训练过程是将来自不同研究的单细胞数据,以及其对应的标签(例如测序平台,批次号,样本的生物状态等),通过条件多层自编码器(conditional auto encoder)进行降维。

预先训练scArches的过程

之后用户可以从模型仓库中下载训练好的模型中的参数,加入新的数据集标签后,重新训练,得到新的模型,用户可以选择是否将训练好的模型上传数据仓库,更新模型。其中新数据带来的神经网络中的连接,被称为适配器,在更新模型时,只需要针对适配器进行更新。

分布式训练scArches模型的过程

下图展示了分布式训练的过程,下图是参考数据集,上图中被圈出的数据,被逐步加入了模型,其对应的是下图被圈出的蓝色部分。通过UMAP聚类,可以看到新加入的数据,都是和之前的数据集能够分开的。

将两项研究连续整合到包含三项研究的胰腺参考图谱的-可视化过程

scArche实现快速准确的参考映射

scArche是一个通用的框架,可以使用之前提出的不同数据整合模型,例如scVI,trVAE等,其中scArches-trVAE与其他方法相比更具有竞争力。上图展示了应用于大脑图谱时,不同颗粒度下的数据展示模式,可以看出其即使只用耗时最小的查询层,其结果也和使用全部层是相近的,这说明使用权重来整合新的查询数据集,可以在最佳的时间和整合性能进行手动地权衡,在整合不同批次的同时保持不同细胞类型之间的差异。

根据10849个CITE-seq数据作为参考集,可以对10315个RNA-seq的数据集进行整合,其细胞类型的判定,都是正确的,这说明scArches 支持从参考到查询的知识迁移,与SVM rejection, Seurat version 3和逻辑回归分类器等目前最先进的方法相比,基于scArches的标签投影效果最好。

在新冠感染细胞映射参考基因集后,可保留COVID-19细胞状态。

在疾病研究中,与健康参考数据的关联性是至关重要的。一个成功的疾病到健康的数据整合应该满足三个标准。(1)保留健康细胞状态的生物变异;(2)整合健康参考和疾病查询之间的匹配细胞类型;(3)保留独特的疾病变异,如在健康参考建立过程中未见的新细胞类型的出现。在测试中,scArches联合嵌入以细微的生物变异为主,虽然参考数据中没有标记疾病状态,但scArches将这些状态与健康参考数据分开,甚至保留了生物变异模式。因此,用scArches进行的疾病到健康的整合符合成功整合的所有三个标准。

总结,scArche是使用迁移学习和参数优化来实现高效、分散、迭代的单细胞转录组参考图谱构建,及新数据集与现有参考图谱的关联的工具。可被应用于生成特定背景的大规模疾病图谱。通过疾病参考资料之间的映射,可以在单细胞水平上评估这些疾病的相似性,从而为寻找机制、恢复疾病状态或研究扰动提供信息,例如用于药物再利用。之后的研究,可将scArches应用于组装多模式的单细胞参考图谱,以包括表观基因组、染色体构象、蛋白质组和空间组学。

scArches可以在以下网址获取 :https://github.com/theislab/scarches  

复现结果的代码可在如下网址获取:https://github.com/theislab/scarches-reproducibility

NBT最新:通过迁移学习,对单细胞转录组进行映射

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 计算差异表达分析方法(rna-seq)
相关文章