自然机器智能最新:单细胞海量数据整合工具-INSCT

admin 23 2025-01-24 编辑

单细胞海量数据整合工具-INSCT

自然机器智能6月的论文“使用三元神经网络(triplet neural networks TNN),整合百万级单细胞多批次数据”,提出了一种能够在个人电脑上运行的工具INSCT,其可在1.5小时内,使用25G内存,整合来自不同测序平台,不是实验技术甚至不同物种的260万单细胞转录本数据。INSCT基于python语言,可与常用的分析包Scanpy无缝衔接。

关键词 神经网络 批次效应校正 单细胞转录组

INSCT 的算法框架

在单细胞数据整合中,可以特定细胞类型的数据为锚点,进行垂直整合。下图中同一细胞类型,由两种不同的平台测出的数据颜色相同,不同批次的数据形状不同。INSCT构建一个三元组,通过抽样,生成包含锚点数据,与锚点数据细胞类型相同,批次不同的正向数据,以及于锚点数据批次相同,细胞类型不同的负向数据,通过分别对三类数据进行主成分降维,对各自的PC通过神经网络,获取更低维度的嵌入。

之后最大化anchor和negative样本之间的距离,同时最小化anchor和positive样本间的距离(距离使用KNN和最大互近邻两种方式定义),以两者之和为损失函数,训练一个能够识别批次效应的神经网络(用于从各自类型PC得出嵌入)的权重。最后利用训练好的神经网络,对新数据求出最终的整合后的低维嵌入,完成数据整合。

INSCT的算法框架

2)INSCT 进行数据整合的效果

在模拟数据中,包含来自三个批次的数据,其中如果不通过校正,聚类的结果为12类,而经过INSCT校正后,只包含4类,每类对应不同细胞, b中红色的细胞,只在某一批次中出现,其也能够通过INSCT区分开,这说明了该方法能够整合多个测序平台中独立出现的细胞类型。

模拟数据下和之前的批次效应校正方法 IVIS对比

在真实数据,包含4.9万和5.6万的小鼠20个器官的单细胞数据中,如果不进行数据整合,进行聚类的结果如 的a和b所示,其中不同细胞类型的数据聚在了一起,而经过了INSCT整合,其各自平台的数据,进行聚类后的结果的结果如 c,d和e所示,其不同细胞类型能显著区分开,且不同平台的数据在聚类图上的结构是相似的。

:INSCT整合来自不同平台的数据

对比其它数据整合方法对同样的数据集进行整合后聚类的效果(),并结合图f使用KNN算法基于聚类结果预测细胞类型得出的准确率,可以看到TNN(即INSCT)其准确性高,且运行时间短(图g)。

:其它工具整合小鼠20个组织的来自两个平台的数据聚类结果

在另一个人类胰腺的,四个不同来源的数据集中,对比多种数据整合方法的结果如所示,可见INSCT在聚类上,能分清不同细胞类型,其KNN的聚类结果也是准确性很高的。多数据集的结果,证明了该方法的鲁棒性。

:人类胰腺数据整合,现有方法和TNN对比

单细胞数据整合的应用,还在于整合不同物种对的数据,结果是不同的细胞类型能够聚类后分成独立的一簇。下图将小鼠和人类的数据使用INSCT整合后,进行了聚类,并指出细胞类型对应的标志基因,在不同物种数据的聚类中,呈现相似的分布( d),而根据小鼠细胞类型预测人类数据的细胞类型,其准确度也很高(图e所示)

:不同物种的数据整合效果展示

为说明INSCT在海量数据集上的表现,该文进行了目前规模最大的单细胞转录组数据整合实验,对四个数据集,总计260万个细胞的数据进行整合,其结果在四个平台上都是相互有重合的,且对区分细胞类型的标志基因,也能有在四个平台之间是有重合的,这都证明了该方法对多个数据集进行了整合( B)。将表达异质性最高的神经元细胞单独拿出来看,其结果也在多平台的嵌入可视化中呈现相近的形状( c),论证了该方法对表达量异质性高的数据也使用。

:大数据集260万小鼠脑细胞数据集的整合

比较不同大小的数据集整合所需的时间,可以看到在海量数据集上,TNN即INSCT的耗时最短,在百万细胞时,其耗时是次长的Harmony的一半。这说明该方法可能用于未来更大量数据的整合,

:不同细胞数运行时间对比

3)INSCT用于半监督的自动细胞标注

之前的分析,假设细胞类型是未知的,而INSCT可以在知道全部数据的细胞类型注释(有监督学习),或将无数据的标签整合到有标签的参考集中(半监督学习),在引入细胞类型注释后,其聚类的准确性(Silhouette指数评价),相比无监督学习时有显著提升。在半监督学习时,同一类型的细胞聚类后分散明显,不同来源的数据会聚在同一簇(b),半监督学习下,可以避免手动对细胞类型进行标注,图c展示了该方法进行自动化细胞类型标注的准确性。

:半监督细胞类型分类

该方法还能够检测出手动数据标注时的错误,在模拟数据中,假设红色点的细胞被错误标记为绿色,经过INSCT整合,其会被标记为全新的一类(紫色),由此可指出潜在的错误标记数据,见0.

0:使用INSCT检测被错误标记的数据

4)总结

随着细胞图谱的数量和密度的增加,越来越多的研究人员将其私有的 scRNA-seq 数据投影到这些带注释的参考集中,并通过对未标记的原始数据进行稳健的集成和分类,这使得数据整合会变成单细胞分析中不可获取的一步。

INSCT是一个高效的基于深度学习的单细胞数据整合工,其能取得和当前单细胞数据整合工具相同甚至更好的效果,但所需时间更短,其还可以使用下取样策略进一步减少运行时间

通过训练网络上的一个细胞子集,然后投射到剩余的细胞到嵌入空间。

虽然我们只对 scRNA-seq 数据应用 INSCT,但原则上该方法是可以应用的,未来可测试将 INSCT的应用扩展到其他数据类型,例如甲基化或蛋白组数据。同时,该方法也原则上可以适用于空间转录组的数据整合。

该论文中的分析都基于Google Colab,软件包见https://github.com/lkmklsmn/insct,可由pip进行安装。

Ref

https://www.nature.com/articles/s42256-021-00361-8

https://www.biorxiv.org/content/10.1101/2020.05.16.100024v1.full.pdf

自然机器智能最新:单细胞海量数据整合工具-INSCT

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 10+的蛋白质组学思路新鲜出炉啦!
相关文章