RNA 测序的指纹识别

admin 49 2025-01-05 编辑

目前公开数据库中,已有数以百万计的转录组数据,然而缺少有效地方法,以利用现有数据解释新的实验结果。今年6月27日Nature Communication的论文[1],提出一种名为GenomicSuperSignature的计算方法及对应的R/Bioiconductor包。该方法基于来自536项研究,总计44,890个人类 RNA 测序图谱,通过主成分分析,得到可复制的变异轴(RAV),RAV 使用原始研究的元数据和基因组富集分析,对新的表达谱进行注释。将新数据集与 RAV 关联,能够提取可解释的注释,还可以提供直观可视化功能。使用 TCGA 和罕见病数据集,验证了该方法可进行高效地数据库搜索,对包含批次效应和异构的训练数据以鲁棒的方式进行迁移学习。总结来看GenomicSuperSignature可利用较少的计算资源,在现有数据库的上下文中分析新的基因表达数据。

链接:https://www.nature.com/articles/s41467-022-31411-3

降维已被广泛应用于将高维度的转录组转换为数量较少的代表共表达的潜在变量中,通过这些低维的潜在变量,可检测生物标志物,例如由共享功能,表达调控、组织成分或细胞类型以及批量效应引起的基因共表达。在这些因素的共同作用下,降维可以解释新数据,减少所需多重假设检验次数,但也可能导致不完整或误导性的解释。通过将新数据集中的潜在变量与公共转录组数据库中的潜在变量进行比较,可以改进解释的鲁棒性。

GenomicsuperSignature 作为一个探索性数据分析工具,将新表达谱经过主成分分析得到的PC轴与之前发布的独立数据集中表示的可复制变异轴(replicable Axes of variable,RAV)的注释索引进行匹配。由于RAV 作为由多个以前研究得出的,定义良好且可复制的潜变量,可代替从头开始定义的潜变量,用以迁移学习。通过使用预先构建的、预先注释的、降维的 RAV,GenomicSuperSignature可以在普通笔记本电脑上,在几秒钟内就可以获得新表达谱的注释信息。

:GenomicsuperSignature的模型构建过程,完成聚类后,通过医学主题词注释(meSH)和基因集富集分析(GSEA)增强 RAVs 的可解释性。b)加入新表达谱,使用RAVs得到表达谱热图,功能注释词云图,对应文献的元数据以及和公开数据后的聚类图。

具体来说,模型构建阶段GenomicsuperSignature将来自多个公开数据集的转录组数据进行降维,先得出 10,720 个主成分,之后将这些主成分组合成 4764 个可复制变异轴RAVs,其中1378个包含单一的主成分。之后将新数据对应到可复制变异轴上,从而获得新数据的签名。根据定义,单元主成分不是一个“可重复”信号,过滤后只剩下3386个 RAVs。故此,我们将来自44,890个样本的信息压缩成3386个 RAV,这个数字小于最初样本数量的1/10。考虑到RAVs计算过程中,使用了所有样本的前90% 变异基因,即只使用了13,934个常见基因。因此,GenomicsuperSignature达到了有效的数据压缩比,使用训练数据的初始容量的约3% 中的RAV,即可保持重要的信息。

为了证明GenomicsuperSignature匹配数据集与相关已发表数据集的能力,我们将 RAVs 模型应用于五个 TCGA 数据集。根据这些数据集主成分与其生物学意义的相关性,我们确定了乳腺浸润癌(RAV221和 RAV868)和结肠和直肠腺癌(RAV832)特异性 RAV。当将 RAV模型应用于乳腺浸润癌(TCGA-BRCA)数据集时,RAV221得到了最高的验证得分(b),验证数据和已有数据中BRAC一列的皮尔森相关性也最高(a),经过注释后得到的词云图中(c)中,大部分关键词也与乳腺癌有关。

验证数据集:TCCA数据集中BRCA数据作为验证数据,通过得到的最相近RAV,以及对应的注释词云,相关文献及富集通路

GenomicsuperSignature通过对新数据降维,还可以发现样本间的亚型,将3567个结直肠癌(CRC)(这些样本可分为四类CMS肿瘤亚型)作为输入,可以发现在RAV834和RAV833上的降维(a),可以清晰地将四种亚型区分开。

之前的研究,使用1,867个样本微阵列的PC 聚类亚型评分(PCSS)的连续评分系统,并发现PCSS发现的主成分与微卫星不稳定性(MSI),肿瘤分级,分期和肿瘤位置相关性更密切。对比PCSS的评分和RAV评分与对应临床病理变量的关联,在所有四种表型上都比离散的 CMS 表现更好,除了肿瘤部位外,也优于 PCSS 。值得注意的是, GenomicsuperSignature仅仅是从 RNA-seq 数据中训练出来的。这意味着,从非结直肠癌特异性数据集训练的 RAV ,在捕获 结直肠癌相关的生物学相关特征上优于使用结直肠癌特异性数据库捕捉到的特征,这表明 GenomicsuperSignature的特征提取具有一般性,可以应用于描述其他疾病。

,a)结直肠癌组织的样本,经过GenomicsuperSignature得到的降维,能够区分出不同亚型,b)临床表型在不连续的 CMS 亚型和 RAV834/833分配的样本分数作为协变量进行回归。使用似然比检验(LRT)将整个模型与仅包含 CMS 亚型,-log10p-value 接近0,这意味着 CMS 没有提供额外的信息。c)使用 PCSS1/2和 RAV834/833分配的样本评分作为协变量进行与图(b)中相同的回归,并计算似然比

由于实验技术原因,RNA数据集往往包含缺失的信息或隐藏在噪声中的信号。通过利用现有的数据库,GenomicSuperSignature 可以通过揭示新数据集的弱生物属性或间接测量的生物属性来填补这些空白。为了评估 GenomicSuperSignature 的迁移学习上的应用,我们比较了两个不同数据集:8-红斑性狼疮全血(SLE-WB)23和多血管炎患者鼻刷样本的 RAVs 对嗜中性粒细胞计数的估计。结果发现RAV1551注释对应的通路关键词包含噬中性粒有关,而该RAV上的嗜中性粒细胞计数有关(图a)。考虑到嗜中性粒细胞是终末分化的细胞类型,在活性基因表达谱中可能检测不到,因此我们使用 MCPCounter估计嗜中性粒细胞的值,这样得出两者的相关性更高(图b)。图c中,将从多血管炎(GPA)患者的肉芽肿病中获得的鼻刷样本得到的基因表达谱,通过GenomicSuperSignature降维后,发现RAV1551上的位置任然与嗜中性粒细胞的个数有关,这表明 RAV 可以作为一种新的方法来比较不同的数据集,并对潜在的生物信号提供解释。

,使用红斑性狼疮全血和多血管炎患者鼻刷样本,说明经过降维后得到的RAV1551与嗜中性粒细胞计数呈正相关。

 

从使用来看,预先构建的模型大大减少了用户的计算需求: GenomicSuperSignature模型在24个内存为128Gb 的核上训练需要几天时间,而使用它进行注释程序可以在传统的笔记本电脑上几秒钟内完成,GenomicSuperSignature作为 R/Bioiconductor 软件包和 Galaxy 工具,允许随时将其纳入广泛使用的 RNA-seq 分析流程,并使大型研究团体能够重用公共数据,以便对新数据进行更准确的分析。

总结来看,GenomicSuperSignature包含从大量现有转录组中学到的信息,这些信息可以“迁移”到新的表达谱数据中 。GenomicSuperSignature得到的RAV由多个已发布数据集的独立分析中重复观察到的主成分组成,与之前的数据整合方法相比,该策略可识别小型训练数据集的潜在变量,并忽略在多个数据集中,由未观察到的技术因素导致的偏差。结合发表引文、 MeSH 术语和基因集,得到的注释包含从大量现有研究中学到的信息。GenomicSuperSignature可对表达谱进行功能和富集通路注释,并能放映生物学功能,例如对应不同的亚型及连续表型。

 

RNA 测序的指纹识别

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: RPKM, FPKM and TPM,迷糊?
相关文章