自然新子刊计算科学5月20日的论文:Single-cell manifold-preserving feature selection for detecting rare cell populations,针对单细胞转录组分析,给出了一种能够同时进行特征筛选和聚类的新方法SCMER,该方法同时支持多助学数据整合,并能应对不同批次数据带来的差异。
单细胞聚类时,先进行PCA分析,这时能找到不同主成分对应的基因,即这些基因的差异导致了PCA结果中,不同细胞处在不同区域,但之后基于PCA的结果,进行非线性的进一步聚类,例如t-SNE或UMAP时,我们就无法得知是那些特征对聚类贡献最大。这之后,研究者必须基于先验知识,去找出自己关注的基因,是不是在不同分群中的表达量存在差异,再去解释其生物学意义,考虑怎么讲故事。
而SCMER,则能够在进行类似UMAP式聚类的同时,从数千个候选基因中选出数百个,然后基于这数百个基因,得出和使用全部基因表达量矩阵相近的聚类结果。而选出的那些基因,具有临床或生物学意义,能够指导下游研究。
除此之外,就是即使是同类细胞,也存在罕见的未知子类型,处在不同的状态下的同类细胞,表达量模式也存在差异。之前的聚类方法中,这类细胞通常处于两个聚类边缘的细胞,研究者对其生物学意义,往往只能忽视。如何从单细胞数据集中,找出罕见的细胞类型,是新方法的另一突破。
SCMER使用pytorch编写,可以用一行代码调用,操作简便。在一个包含了10000个细胞,2000个候选基因的数据上,使用6核的I7-8700 CPU,经过20-40次迭代,以在5-10分钟内完成基因子集筛选。该方法还可以用GPU进行加速,使时间消耗减半。
SCMER 流程图
假设输入数据只是单批次的表达量矩阵X,SCMER先对其进行PCA,然后按照流形聚类,计算细胞间的相似度矩阵P,之后基于向量w选择基因子集,使用这些特征计算细胞间相似性Q,之后用结合了L1正则和L2正则的弹性网,进行正则化,计算P和Q之间的KL距离,之后选择那些能够最小化P和Q差异的基因集w,通过多次迭代,得到那些基因对聚类贡献最大。
SCMER用于多助学研究的流程图
在结合了多个助学的信息后,SCMER能够找到对聚类贡献最大的基因所富集的通路,同时利用转录本的流形聚类结果,有监督地预测蛋白组的聚类,从而实现数据整合。
为论证SCMER能够找出位于变化过程中五个不同阶段的细胞间的差异,使用了包含180个特征(其中45个随机特征,5×20共100个阶段特异性特征,5个连续变化的特征,以及3×10共30个处在变化中的细胞才会呈现的特征)的模拟数据,可以将其想象成正常细胞到癌细胞转变过程中的五个阶段。
模拟数据上,使用相关系数,表达量差异和SCMER,能够区分出的特征,可以看到,只有SCMER,能够找出上文提到的所有特征
在来自19个人总计4645个细胞的黑色素瘤的真实数据中,使用SCMER选出的75个基因子集和使用全部6219个基因,进行UMAP聚类的聚类的结果相近,都能区分出不同类型的细胞。
黑色素瘤原始数据和筛选后数据的UMAP聚类对比
在筛选出的基因子集中,包含与一致的肿瘤抗药性及肿瘤间异质性有关的基因,还包含与不同细胞类型对应通路上的基因。这些基因的表达量在不同聚类子群中存在显著差异。这说明了其筛选的基因是有差异的。
筛选出的基因的表达量设色热图
针对黑色素癌,已知一些基因能够预测患者的死亡率,如下图所示,而这些基因能被SCMER找出,说明了该方法能找出具有生物学意义的基因子集
表达差异对患者存活率的生存率对比图
类似的,针对克罗恩病患者的39563个小肠免疫细胞以及6915个处在不同阶段的人骨髓细胞,进行基因子集提取,可以发现其聚类和使用全部特征的聚类呈现相似性。
肠道免疫细胞原始数据和筛选后数据的UMAP聚类对比
骨髓细胞原始数据和筛选后数据的UMAP聚类对比
该研究还对比了处在不同状态下的细胞,下图展示了1429个腺癌细胞,在经过地塞米松处理0小时,1小时和3小时后的的表达量情况,可发现经过SCMER提取的80个基因子集进行聚类,其结果也是类似的
处在不同状态的腺癌细胞原始数据和筛选后数据的UMAP聚类对比
总结来看,SCMER可以在不依赖聚类方法的前提下,找出单细胞转录组数据中有生物学意义的基因集,为设计潜在的临床应用,协助富集通路分析,指导蛋白组数据分析提供帮助。此外,SCMER 亦可处理批次效应,先在各自批次找出对聚类贡献大的基因集合,在各自的批次中保留重复出现基因子集。在这种方式下,它将优先考虑有助于生物学而不是技术差异的基因。
对于空间转录组的分析,SCMER除了可以减少聚类分析所需的计算资源(使用更少的特征,从而可以处理更多细胞,提高分辨率),还能够找出与空间表达模式相关的基因集合,并通过重复分析,说明这些基因在空间的表达量差异不是由于实验差异造成的。