ScType-单细胞自动化细胞注释工具

admin 22 2025-02-03 编辑

常规单细胞分析中,细胞群的注释通常依赖基于其转录组谱的无监督细胞聚类,鉴定不同类群之间差异表达的标记基因,然后通过在文献或细胞标记数据库中检索这些标记基因,将对应的细胞类型标签注释到给每个细胞群。然而这种手动注释的方法不仅耗时还容易出错,因为一个标记基因可能在多个细胞群中表达,且对应多种不同细胞类型。此外,阴性标记基因的表达也应纳入细胞类型鉴定过程,这些基因也是证明细胞属于特定类型的证据。

在临床上,单细胞特征分析的一个重要应用是设计个性化治疗,选择性地针对患者来源样本中的恶性细胞类型,同时避免对健康细胞的抑制和毒性作用。然而,如何准确区分多种恶性和非恶性细胞群以进行靶向治疗仍然是一个挑战,需要适用于各种疾病和组织类型的系统性和高度选择性策略。基于以上问题,芬兰赫尔辛基大学分子医学研究所(FIMM)的研究人员开发了ScType 数据库。

使用来自单细胞转录组数据的组合特定标记进行全自动和超快速的细胞类型鉴定

ScType简介

ScType数据库是迄今为止最大的人类和小鼠细胞特异性标记基因数据库,整合了 CellMarker数据库和PanglaoDB这两个目前最大的细胞类型注释数据库中的标记基因。在CellMarker数据库中,从 100000 多篇已发表的论文中手动收集和整理了158个人体组织中467种细胞类型的 13605 个细胞标记基因和 81个小鼠组织中389种细胞类型的9148个细胞标记基因。在 PanglaoDB数据库中,收集了155 种细胞类型的 6631 个标记基因。此外,开发者还通过手动整理超过10篇文献,将15种具有相应标记基因的新型细胞类型添加到了当前版本的ScType 数据库中。总体而言,当前版本的 ScType 数据库包含17种人体组织中194种细胞类型的 3980 个细胞标记基因和 17 种小鼠组织中194种细胞类型的 4212 个细胞标记基因。

不仅如此,ScType 还有很多其他优势:首先,ScType只需要一个 scRNA-seq 表达矩阵(原始的或标准化的)作为输入,输入数据的维度不受限制;其次,ScType提供了多种处理、分析和可视化 scRNA-seq 数据的方法;再次,ScType 实现了细胞类型识别的自动化程序;最后,ScType 是一个免费的工具,还在GitHub上提供了可供使用的R包集代码。

ScType的整体性能如何?

开发者通过对来自人和小鼠各种组织的 6 个 scRNA-seq 数据集进行了注释分析,准确率 高达98.6%。唯一无法自动注释已知的细胞类型是人脑数据集中的胎儿细胞,这是因为在当前版本的 ScType 数据库中没有可用于人脑的胎儿细胞标记基因。此外,开发者还将 ScType 与其他三种最近开发的细胞类型注释方法进行了比较。结果显示,ScType不仅准确性高,运行速度也很快。值得注意的是,ScType 在注释人类 PBMC 数据集的细胞类型中显示出了几乎完美的准确性。

进入正题:如何使用ScType?

1. ScType介绍

进入首页,左侧为数据上传、质控、可视化、示例样本以及内置数据库等项目。右上角的说明文档中介绍了数据上传的要求。ScType 中允许使用三种输入文件格式,分别是基因表达矩阵、CellRanger的输出文件(包含barcodes.tsv、genes.tsv/features.tsv 和 matrix.mtx的*.zip压缩包)和SingleCellExperiment R 对象。

2. 上传数据

3. 数据质控和过滤

该平台数据分析的第一步是基于cells/barcodes统计的质控分析。ScType 提供三个QC指标来根据用户自定义的标准(检测到的基因数、计数深度和线粒体基因百分比)过滤细胞。左图上的每个点代表一个细胞(鼠标悬停可以查看细胞注释)。鼠标拖放虚线可以自由选择过滤标准。过滤也可以通过右侧栏移动滑块来完成。确定过滤标准后点击下一步。

4. 数据标准化

接下来是对数据的标准化。在右侧选项栏中可以指定用于下游分析的高变基因数量,该平台默认值是输入数据中给出的基因总数的 15%。

5. 可视化

最后是结果可视化。用户可以自主选择是以散点图还是热图展示,有t-SNE、UMAP和PCA三种降维方式可选择,既可按cluster着色也可以选择按细胞类型着色。可视化的结果可以图片形式导出,相关数据也可以下载相应的xlsx文件。

6. 用户自定义

此外,ScType还允许用户上传用于细胞类型注释的自定义标记基因。

参考文献

Ianevski, A., Giri, A.K. & Aittokallio, T. Fully-automated and ultra-fast cell-type identification using specific marker combinations from single-cell transcriptomic data. Nat Commun 13, 1246 (2022). https://doi.org/10.1038/s41467-022-28803-w

ScType-单细胞自动化细胞注释工具

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: SXR2023030013C+联合RNA-seq的免疫浸润与单细胞数据分析免疫微环境,简直绝配~
相关文章