Scoomp:根据单细胞转录组研究细胞组成的生信工具

admin 10 2025-01-30 编辑

大家好,今天分享一篇近期发表在PNAS(IF: 9.6)的文章,该文章主要展示了能稳定识别单细胞数据中组成差异的生信工具scoomp,该工具能够准确地拟合实验数据,相比最先进算法,具有更好的性能。使用 sccomp可确定原发性乳腺癌微环境中的不同限制因素和组成。

论文地址:https://pubmed.ncbi.nlm.nih.gov/37549298/

工具链接:https://github.com/stemangiola/sccomp

背景

细胞组学如单细胞基因组学、蛋白质组学和微生物组学关注组织和微生物群落由哪些些种类的细胞组成,可以在不同条件下进行比较以确定生物驱动因素。组成分析模拟细胞类型、分类群或其他实体在种群中的比例。组织成分分析在癌症研究 ,流行病学,代谢疾病和皮肤生理学中都有重大发现。例如单细胞转录组学和高通量流式细胞(CyTOF)通过测量单细胞水平上数万个细胞的转录结果和数十种蛋白质的丰度,16S rRNA和宏基因组微生物DNA 测序通过检测细菌的遗传学来表征细菌分类群。细胞群或微生物群的相对丰度可以在生物学或临床条件之间进行比较,以确定细胞或分类学驱动因素。目前缺少处理差异变异性分析的细胞组学工具。

结果

scoomp在模拟数据上的表现好于现有方法

在基于新冠感染者的模拟数据中,每组包含5或20个样品,合计20组,每个样品预期保护1,000个总细胞,8组(40%)差异丰富,12个没有差异。a中的黄色种群的数量差别很大。B展示了现有的分析组成差异的工具,在上述模拟数据集上的表现,深红色代表的scoomp在AUC曲线上表现最好。c展示了当差异大小和组间样本数不同时,各方法的检测准确性,可以看到在各种场景下,scoomp的表现都是最佳的。d展示了不同方法的AUC均值,以及scoomp相对其它方法AUC的提升。通过模拟数据,可指出scoomp是一种稳健的鉴定组成差异的方法。

与现有方法对比,scoomp在模拟数据上的表现

scoomp在真实的乳腺癌微环境数据中可鉴定癌症亚型

作者选取公开数据集验证scoomp的性能,数据包含26个,可分为3个亚型的乳腺癌患者的单细胞数据,共计包含49类细胞(a对应其UMAP降维结果),通过scoomp,可鉴定不同亚型样本中,不同类型细胞的占比差异(b展示的是使用scoomp后新发现的组成比例差异)。除了分析组间差异,scoomp可给出不同疾病亚型在组内的异质性,如c-f展示了对于ER亚型,同组内细胞比例差异性要显著大于HER2,这说明ER型乳腺癌具有更高的异质性。

除了不同类型间的差异,scoomp还可以针对肿瘤发育过程中连续变量,寻找细胞比例的差异,针对包括成纤维细胞,树突状细胞,单核细胞和 T 细胞数目等的17个指标,使用scoomp可证实了大多数这些关联,并新检出了15个新的关联,如肿瘤相关成纤维细胞(Fb7,Fb8)和巨噬细胞(Tam1,Tam2) ,嗜中性粒细胞和 mig 树突状细胞在不同亚型间存在细胞类型比例差异。h展示了新发现存在差异的细胞类型,及其在UMAP上的对应,h中标绿的部分,对应scoomp新找出的存在组间差异的细胞类型数量。

scoomp的另一个用法是先去除数据中的异常值,再进行差异分析。为了更广泛地评估 sccomp 的有用性,通过分析其他四个单细胞 RNA 测序公共数据集,考察包括所有数据集的差异组成和变异性。结果发现Sccomp 在所有数据集中识别出异常值,19% 的单元组包含一个或多个异常值(J)。此外,20% 的异常阳性细胞组,以前的分析没有标记为显着,被标记为显着的 sccomp 排除异常值后。原始分析和 sccomp 分析之间的比较显示,15% 的未被标记的阳性样本包含异常,这意味着由于异常值的存在,各个研究提出的一些差异组成关联可能是假阴性的。

基于五个真实的乳腺癌单细胞数据,scoomp可鉴定新的细胞亚型

scoomp可基于真实数据,产生模拟数据,用以验证假设

在展示了scoomp的性能后,回顾是scoomp的分析套路,首先是根据现有的类似部位的单细胞数据,预估得到新数据的均值方差,以此作为先验知识。之后需要根据生物学背景,给出带检验的假设,分为两类,分别是组间差异与组间异质性程度对比。之后对新数据进行降维,细胞类型标注,差异分析这些常规步骤,之后scoomp会迭代的去除异常值,最终得到符合先验均值和方差的数据。之后据此产生具有相同统计量的模拟数据,并在模拟数据中,使用scoomp分析细胞类型差异,因为是模拟数据,可以计算估计的准确度(得到AUC曲线)。最后根据模拟数据得到的估计准确度,给出后验的细胞类型差异结果及置信度。

,scoomp的应用流程图

对公共数据的再分析证明了 sccomp 的实际应用和有效性,scoomp可确定了差异变异性和成分关联。除了用在单细胞转录组数据集外,作者还在包括单细胞 RNA 测序,CyTOF流式细胞和微生物宏基因组分析,三类共计18个公共数据集上使用scoomp,结果表明:与其他方法相比,sccomp 显著提高了2倍的准确性,能找到其它方法无法找出的细胞比例差异及差异变异性区别。此外,sccomp 可以使用任何实验数据集的属性来模拟真实的数据。模拟数据可用于评估拟合模型的充分性和基准测试的目的。scoomp基于R语言,可通过Seurat的数据结构与现有分析流程互动。

小结

该研究介绍了细胞组学成分分析的几个创新点,如微分变异性分析、对数线性平均变异关系、概率异常点识别和交叉研究信息传递。该项研究挑战了现有的方法学,并为单细胞和微生物科学界提供了一个强大和灵活的工具。作为一个统计模型,适合度量数据的组合性和群体变异性,同时允许排除异常值,我们预计它在其他科学领域的采用。

Scoomp:根据单细胞转录组研究细胞组成的生信工具

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 新辅助化疗前后测序、单细胞测序成就CCR
相关文章