SXR202310018C+ESICCC:作为评估、选择和整合细胞间通讯方法的系统计算框架

admin 48 2024-12-21 编辑

ESICCC:作为评估、选择和整合细胞间通讯方法的系统计算框架

细胞间通讯(CCC)是决定细胞功能和命运的关键,随着单细胞和空间转录组学的出现,很多CCC算法被开发出来,今天小编就给大家推荐一篇刚刚发表在Genome Research上的文章“ESICCC as a systematic computational framework for evaluation, selection and integration of cell-cell communication inference methods”文章评估了18种配受体推断方法包括5种配受体靶点推断算法,比较了这些方法的一致性、准确性、稳健性和可用性。并开发了一个pipeline- CCCbank,可以实现算法和数据库的多种组合。

背景:

细胞间互作在许多生理和病理过程中起着重要作用,如细胞分化、组织发育、免疫和疾病。因此阐明细胞间相互作用机制对于了解疾病的机制和治疗至关重要。

细胞相互作用以多种形式发生:物理接触(细胞黏附)和胞间通讯CCC(自分泌、旁分泌或内分泌)。CCC主要由胞间配体-受体(L/R)相互作用介导,。因此,CCC的计算推理追求两个目标:量化细胞间L/R信号,并推断细胞间信号和细胞内反应之间的相互作用。

近几年,开发了很多基于scRNA-seq数据的CCC推测方法,这些方法可以分为两类:1)L/R推测方法,包括CellPhoneDB v2.0、CellPhoneDB v3.0、CellTalker、CellChat 等等。 2) L/R-target推测方法,包括NicheNet、CytoTalk等。

L/R推测方法基于先前数据库中已知L/R对的表达来推断细胞之间的通信。而L/R-Target推测方法通过考虑细胞内信号来预测L/R相互作用的下游目标。在L/R-Target推理方法的范围内,NicheNet、scMLnet和stMLnet利用数据库中细胞内信号通路的先验知识来推断细胞间的通信,而MISTY和HoloNet在没有考虑调控途径的情况下推导出细胞内靶基因与配体或受体之间的调控关系。此外,大多数L/R-Target推断方法需要一组预先定义的已知靶基因作为输入,而CytoTalk直接根据数据预测从头开始的细胞内信号成分和靶基因。值得注意的是,应区分L/R评分和L/R-Target两个术语:前者涉及利用表达数据量化配体或受体的活性水平,而后者涉及通过配体或受体信号调节靶基因。

在这项研究中,作者整理了多种CCC推测方法,评估了它们的相似性、准确性、稳定性。还提供了一个实用的工具选择指南,并构建了CCCbank,用于在CCC推测中灵活集成各种方法和数据库()。

 

结果

18种L/R推理方法的相似性评价

使用11组scRNA-seq数据作为输入进行预测,并使用匹配的11个ST数据集进行评估。使用特定细胞类型的CAGE(cap analysis of gene expression)数据和蛋白质组学数据作为伪黄金标准来对18种L/R推断方法进行测试。总结了18种L/R推测方法的测试结果。

 

对于每种方法,计算了所有细胞对预测的L/R对的数量。根据相似性指数(RSI)来评估重叠的L/R对在每两种方法中是否具有一致性(A)。此外,我们发现一些方法预测了大量的L/R相互作用(~数千),而另一些方法预测了相当少的L/R相互作用(~数十)。在计算Jaccard指数时,数值非常小,很难观察到不同方法之间的相似或差异。因此,作者在Jaccard系数的基础上进行了修改,定义了相似度指数(SI)。总体而言,SI值的大方差表明,大多数方法预测的L/R相互作用的重叠程度很低()。同时,以互补的方式考虑SI和RSI指标可以更全面地评估不同L/R相互作用推理方法之间的相似性。

 

在ST数据中使用差分L/R相关性对18种L/R推理方法进行基准测试

假设位置更近的细胞对中L/R表达相关性在更强。因此使用了11个与scRNA-seq数据配对的ST数据集来评估这18种方法的性能。作者基于互信息(MI)构建了DLRC指数,评估了11个ST数据集中每种方法的近细胞组和远细胞组的L/R相关性的差异。根据所有数据集的平均DLRC排名(D),CellChat、SingleCellSignalR、RNAMagnet、NatMI和scSeqComm是在该基准测试中表现最好的前5种方法(A)。

 

使用CAGE和蛋白质组学数据对18种L/R推断方法进行基准测试

作者使用原代细胞的CAGE数据和人类原代造血细胞的蛋白质组学数据作为伪金标准来对上述18种方法进行基准测试。使用AUPRC(精确度召回曲线下的面积)来评估预测精度。对CAGE数据和蛋白质组数据的基准测试结果表明,在CCC推测的准确性方面,scConnect、Domino和scSeqComm是性能最好的方法(D,)。

 

18种L/R推测方法的稳健性

为了测试L/R推测方法对不同scRNA-seq数据集中细胞数量变化的稳健性,随机抽样了以上14个scRNA-seq数据集中不同比例(分别为90%、80%、70%、60%、50%)的细胞。总共84组scRNA-seq数据被用作预测L/R相互作用的每种方法的输入。计算了Jaccard指数和稳定值,以评估采样数据和原始数据中推测的L/R对之间的重叠。结果表明,Jaccard指数随抽样率的增加而减小(A)。

总体而言,稳定性基准中排名前5的方法是CellChat、NATMI、iTalk、ICELLNET和CellPhoneDB v3(E)。此外,大多数只考虑L/R相互作用的方法的稳定值都显著高于考虑下游信号通路的方法(C)。

 

18种L/R推测方法的运行时间和内存使用量

作者比较了在所有数据集中不同方法的运行时间和最大内存使用量()。对于多达2w个cells的数据集的运行时间在20分钟以内,而一些方法(例如PyMINEr、NicheNet、CellPhoneDB v2和CellCall)的运行时间超过1小时(A)。当细胞数量达到1w时,CytoTalk需要最长的运行时间(超过几百天)。推断细胞内信号的方法比仅推断细胞间通信的方法运行的时间相对更长(A)。此外,随着细胞数量的增加,上述方法的最大内存使用量有增加的趋势(B)。当细胞数达到2w个时,大多数方法的最大内存使用量都在10 GB左右。

 

五种L/R-靶推测方法进行测试

进一步评估和比较了五种L/R-Target推理方法,即NicheNet、CytoTalk、stMLnet、MISTY和HoloNet。stMLnet、MISTY和HoloNet都需要ST数据作为输入AUPRC的结果如A所示。还比较了上述五种方法在所有数据集中的运行时间和最大内存使用量以供比较(C-D)。HoloNet和CytoTalk需要最长的运行时间(~几天)。Misy、NicheNet和stMLnet的最大内存使用量低于10 GB,而HoloNet比其他四种方法消耗的内存要多得多。

 

一种基于决策树的选择准则

作者提供了决策树式的工具选择推荐,以便用户根据数据类型和特定目的轻松选择最佳方法()。对于细胞间L/R相互作用的分析,建议使用CellChat或RNAMagnet,因为它们具有较好的准确性,如果使用小数据集,建议使用CellChat或NatMI,如果考虑到计算效率,建议使用CellTalker或Connectome。细胞内信号传递,建议使用scSeqComm(高截止)、Domino、scMLnet或NicheNet。如果ST段有数据,建议使用STMLnet或HoloNet,因为它们具有较高的预测精度。

 

CCCbank:CCC推测的pipeline

最后作者开发了一个名为CCCbank的pipeline(0A)。通过CCCbank,每个方法可以配备一个或多个L/R数据库或任何其他用户定义的数据库。CCCbank使用scRNA-seq数据的seurat对象作为CCC推理的输入。CCCbank的输出包括推断的L/R对及其得分,可以用于进一步的分析或可视化。在此,我们使用CCCbank结合不同的数据库来检验性能最好的方法(即RNAMagnet、CellChat和scSeqComm)的预测精度。结果(0B)证明,当结合不同的数据库时,同一方法在总体准确性方面有不同的表现。

 

总结:

本文不仅在多个方面(准确性、相似性、耗时和内存等等)比较了现有的18种胞间通讯方法之间的不同。而且在文章最后整合了这些方法以及受配体对的数据库。可以帮助用户选择合适的方法来推测细胞间受配体。

SXR202310018C+ESICCC:作为评估、选择和整合细胞间通讯方法的系统计算框架

上一篇: SXR202309021C +公共数据库挖掘换个思路,影响因子比原文高一倍
下一篇: SXR2023030009C_jing_12+单细胞加组织测序,生信加实验的强强联合思路
相关文章