深度学习+预后模型=11分文章

admin 23 2025-01-30 编辑

大家好呀!今天给大家介绍一篇2021年发表在Genome Medicine(IF:11.117)上的文章。本研究作者对多组学数据使用深度学习和机器学习方法进行分析,构建预测多种癌症类型的患者生存情况。

DeepProg: an ensemble of deep-learning and machine-learning models for prognosis prediction using multi-omics data

DeepProg:使用深度学习和机器学习对多组学数据进行预后预测

摘要:

多组学数据是预后和生存预测的良好资源,然而很难对这些数据进行集成计算。作者使用深度学习和机器学习方法构建集成框架——DeepProg,使用多组学数据预测患者生存情况。DeepProg的预测性能较好。泛癌分析表明生存较差亚群的常见基因组特征与细胞外基质建模,免疫失调和有丝分裂过程有关。DeepProg的地址为:https://github.com/lanagarmire/DeepProg。

结果:

1.DeepProg方法概括

DeepProg使用一种或多种组学数据,如mRNA、DNA甲基化和miRNA数据构建的计算框架()。首先,DeepProg使用自定义秩和自编码器进行降维和特征转换。自编码器包含输入层,隐藏层(100个节点)和输出层,随后对特征进行单因素Cox-PH分析,进一步筛选与生存相关的特征子集。其次,使用无监督聚类方法确定生存亚群的最佳分类数并使用SVM学习模型,以预测新患者的生存情况。为确保模型的鲁棒性,DeepProg使用boosting的方法,boosting方法使模型的p值和C指数更高且收敛更快。

2. 32种TCGA癌症的预后预测

作者使用DeepProg分析了32种癌症的多组学数据。几乎所有癌症的最佳分类数均为K=2,即有两个生存亚组(A)。生存分析表明两个亚组的生存差异具有统计学意义(B)。此外,作者研究了隐藏层中每种组学数据的特征数量与每种癌症患者生存情况的相关性。总的来说,RNA-seq数据是与生存相关最主要的特征。尽管32种癌症之间异质性较大,但一些有关癌症,如结肠癌和胃癌,膀胱癌和肾癌具有相似的预后特征。

作者之前的研究表明,添加癌症分期和种族等临床变量并不能提高DeepProg预测HCC生存情况的准确性。本研究,作者比较了DeepProg和一个基于分期的简单模型,DeepProg的准确性较高。随后,作者使用Ⅲ期和Ⅳ期COAD和STAD患者数据构建DeepProg模型并进行生存分层,基于DeepProg构建生存模型性能较好。

3.DeepProg与其他方法的比较

作者将DeepProg对32种癌症的预测结果与SNF算法的结果进行比较。如B所示,使用SNF方法对32种癌症生存进行预测只有13种癌症存在显著生存差异。总的来说,DeepProg的p值和C指数更好(B和2C)。此外,作者使用PCA和两种矩阵分解方法(MAUI和MOFA+)代替自编码器步骤分析TCGA HCC和TCGA BRCA数据集,其余步骤相同。PCA和MOFA+的性能较差()。对HCC数据集来说,PCA和MOFA+的C指数分别为0.6和0.59(A和3B),DeepProg的C指数为0.76(C)。对BRCA数据集来说,PCA和MOFA+的C指数分别为0.58和0.62(D和3E),DeepProg的C指数为0.77(F)。总的来说,DeepProg对HCC和BRCA患者的生存预测性能较好。

4.使用其他数据集验证DeepProg性能

作者将DeepProg应用于两个肝细胞癌的数据集和四个乳腺癌数据集。两个肝细胞癌数据集的C指数分别为0.8和0.73(A和4B)。四个乳腺癌数据集的C指数在0.68-0.73之间(C-4F)。

5.鉴定生存较差亚群的基因特征以揭示泛癌模式

为鉴定生存相关的基因特征,作者对生存较差亚群中显著过表达的特征进行全面分析。作者选择Wilcoxon rank检验p值小于1e-4的特征进行单因素Cox-PH分析并基于p值进行排序。RNA-seq数据表明,在生存较差亚群中存在一些过表达基因模式(A)。CDC20排名第一,细胞分类周期家族的基因包括CDCA48,CDCA5,CDC25C和CDCA2,KIF家族成员包括KIF4A,KIF2C,KIF23,KIF20A,KIF18A,KIFC1,KIF18B和KIF14等也排名前100。作者对排名前100的基因进行聚类,共有两个聚类簇,分别富集细胞周期和有丝分裂的生物学功能和细胞外基质组织通路(A)。在生存较差亚群中低表达的基因,CBX7和EZH1是排名前2的基因。研究表明,下调CBX7表达在肿瘤进展中起到关键作用,抑制EZH1表达参与细胞增殖和癌变。此外锌指家族的多个基因均下调表达,在肿瘤进展中具有相关性。

6.RNA-seq共表达网络分析

为进一步研究与生存较差相关的RNA-seq基因表达情况,作者进行基因共表达分析。作者使用排名前200的基因构建共表达网络并使用随机游走算法检测基因群(B)。该网络还揭示了两组主要的与淋巴细胞和非淋巴细胞通路之间免疫调节相关基因,其聚类结果与特征基因相似(A)。基因-癌症聚类热图表明COAD和STAD的基因表达模式类似(C)。

7.相似癌症类型可以用做预测模型

由于一些癌症类型见具有相似性,作者接下来研究这些模式是否适合用于迁移学习,也就是说,构建一种特定癌症类型的模式可以用于预测另一种癌症类型患者的生存情况。大多数癌症的模型可以有效预测其他癌症患者生存情况(A)。有趣的是,MESO的模型可以有效预测12种癌症的生存亚型。一般来说,生物学相关的癌症类型可能跨肿瘤预测越准,例如STAD模型可以用于预测COAD样本的生存情况(B),COAD模型可以用于预测STAD样本的生存情况(C)。

结论:

本研究作者构建了一个通用的计算模型,DeepProg,该模型结合深度学习和机器学习算法处理多组学数据,可以用于多种癌症患者的生存预测。DeepProg的预测精度和鲁棒性比其他方法较好,且可以使用一种癌症的模型预测另外癌症的生存情况。本篇文章将预后模型和深度学习结合起来,做预后的小伙伴可以参考一下~

深度学习+预后模型=11分文章

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: Cell详解人类心脏发育的时空器官全基因表达和细胞图谱
相关文章