21年2月的NBT,一篇题为“单细胞数据整合中的统计学原则和挑战”的综述,指出单细胞分析中,需要将不同类型的数据整合,这个过程包括单一组学批次效应的校正,转录本和染色质开放性的关联,以及转录本上的基因变异关联等。这些任务虽然目前依赖相近的统计学框架,但其目地和依赖的假设是不同的。
该综述先将单细胞数据整合问题的解法分成了三类,1)用基因特征为锚,进行水平整合,例如对不同单细胞转录组芯片的数据,按照其检测的基因的交集进行整合;2)以细胞为锚的垂直整合,例如将同一细胞的甲基化和转录组数据汇总后进行整合;3)没有特定的锚的数据整合,称为对角线式的数据整合,例如一组细胞测了转录组,一组细胞测了scATAC-seq,现今需要将这两组数据整合。图一依次展示了三种数据整合的方式。
图一:三种单细胞数据整合模式示意图
以下是常见的三种数据整合的方法列表
水平整合常应用于多个批次的转录组数据中,来自不同测序技术的数据,如果没有经过批次效应校正,那么会掩盖其中的生物学联系,并干扰后续的分析。随着诸如 Human Cell Atlas这样大规模的细胞转录参考集的成熟,单细胞转录组的数据分析,需要考虑先将私有数据于公开参考集整合。
适用于bulk RNA数据的线性批次校正,例如limma和ComBat会不适合细胞类型差异巨大,因此分布不同的单细胞数据。上表列出的方法,是目前主流的整合方法。这些方法虽然基于的数学模型不同,但其面临几个共同的问题,首先是overcorrection,即非线性的方法会强制性合并本不是来自同一细胞亚型的数据。其次,是大部分批次校正的方法,依赖于将原数据映射到隐空间,这会增加算法应对数据噪音的能力,但映射后的数据,在进行下游基因表达量分析时会有问题。三是当不同来源的样本,包含不同生物特征的数据,例如来自细胞发育的不同阶段时,区分批次效应和有生物学意义的区分在统计上就是困难的。
水平的数据整合,又可细分为全局和局部的,局部的整合,试图找出数据间的相关性,例如DNA上的突变位点和转录组的关系(eQTL),大部分使用回归,其难点在于区分虚假的和真实的关联。如图二所示,不同人有不同的基因突变,而通过数据整合,能够找出不同细胞类型中,特有的会影响表达量的基因突变位点。
图二:细胞特异性eQTL和转录组数据整合示意图
除了和变异数据关联,其它类型的数据,例如promoter区域的甲基化数据,或者染色质开放数据,也可以使用类似的方式,去和转录数据进行关联的。
而全局的整合,则试图找出找出细胞在不同技术中表现出的整体特征,例如细胞的所处的阶段和其多能性(pluripotency)状态。通常的方法是非监督的聚类,以求找到基因特征间共有的模式,从而指出多种类型的数据,其实都在描述诸如细胞发育的不同阶段这同一生物过程。该类方法面对的共同困难,首先是数据的异质性高,其次是不同来源的数据的特征数不均一,三是难以对不同方法给出的解的质量进行评价。
第三类对角线的数据整合,更为困难,从中得出的生物学洞见,也更难被验证及解释。该类方法假设存在一个低维的流形,能够在多种来源的数据集中抓住不同来源数据间的关联。不少对角线型的数据整合,其实际是将问题转换为水平或垂直的数据整合,然而这种策略依赖的生物学假设是脆弱的。另外的方法则依赖于生物学差异可以被低维表示,从而可以将多来源的数据映射到一个共同的隐空间,来进行数据整合。
在计算机视觉和自然语音处理中,迁移学习对这两个领域的进步,都发挥了重要的贡献。使用迁移学习进行单细胞的数据整合,将不需要进行聚类及细胞注释,而是与参考数据集一起生成联合嵌入,从而将参考集中的数据标签,转移到私有数据集上。不同于之前提到的数据整合方法,该方法不是将不同的实验看成是独立的,而是假设数据集间存在层级关系,从而可依赖已有数据,去推测新数据集的情况。该方法已广泛应用于数据降噪,细胞类型分类及构造私有及公有数据集的共享数据嵌入上。
图三:空间转录组中的数据整合
对于空间转录组,数据整合的任务,可分为水平和垂直两种,前者是将同一组织的不同切片的空间转录数据,按照基因对其,消除捕获率低及数据中包含的噪音,例如SpiceMix可以使用空间信息,并推测出细胞类型,最终找出空间上差异的基因(左图),而图三图三右图则描述了通过诸如SpatialDE这样的方法,从空间转录组中呈现和不呈现线性的表达量模式的基因区分开。
单细胞的数据整合,还可以应用于精准医学。例如基于公开数据集,查询新检测的样本,是否患病,处于癌症的那个阶段,然而这样的查询任务,不同于之间基础科研中的数据整合。其考察的是细胞的组成如何与疾病的发展产生关联,其最终目的是在单细胞的层面,了解疾病的发生和演进的规律,从而允许以个性化的方式进行干预。
医疗应用将问题看成是有监督的分类问题。如图四所示,其中先根据手工标记的数据集,测出不同人群的免疫细胞的单细胞图谱(图中的每个点代表一个人),之后根据受检者的单细胞转录数据,判定其细胞组成和参考序列中的那一个更相似,从而判定受试者是否健康,是否处于疾病前期(橙色)或患某种疾病。
图四:使用单细胞数据进行疾病预测