DeepProg一种新的预测模型
今天给大家介绍一个新的预测模型,DeepProg它结合了深度学习(自动编码器)和机器学习算法来处理多种类型的组学数据集,特别是针对生存预测。本篇文章发表在期刊: Genome Medicine在最近一年的影响因子为11.117比去年上涨了 0.442。中科院大类: 生物学 1区。中科院小类: 2区 遗传学
研究结果
DeepProg的计算框架
DeepProg是一个通用的混合和灵活的计算框架,基于一种或多种组学数据类型(如mRNA转录组学、DNA甲基化和microRNA表达)来预测患者生存()。DeepProg的第一阶段由使用自定义秩归一化和自动编码器(一种深度神经网络)的降维和特征变换组成。在默认实现中,自动编码器有3层,即输入层、隐藏层(100个节点)和输出层。然后对变换后的特征进行单变量Cox-PH拟合,以便进一步选择与生存相关的特征子集。然后,DeepProg使用无监督聚类方法确定生存亚群的最佳类别(标签)数,并利用这些类别构建基于支持向量机(SVM)的机器学习模型,以预测新患者的生存群体。为了提高效率,DeepProg的计算是完全分布式的,因为每个模型都可以单独拟合。
32例TCGA
肿瘤的预后预测
作者应用DeepProg分析了TCGA中32种癌症的多组数据(RNA-Seq、miRNA-Seq和DNA甲基化)。作者在卵巢癌(OV)中只使用了RNA和MIR。几乎所有癌症(32例中有30例)都将K = 2(最优的聚类数K)作为最优生存亚组(A)。利用最优聚类数,作者计算了每种癌症不同生存亚型之间的log-rank p值,均具有统计学意义(log-rank p值< 0.05),且c -index(0.6-1.0)均大于随机模型的期望值0.5。其中,32种癌症中有23种的log-rank p值小于5e−4,突出了这些模型在区分患者生存方面的价值(B)。总体而言,RNA-Seq在预测生存方面具有最重要的隐藏特征。miRNA隐藏特征在所有癌症中都有相似的模式,但总计数较少。
DeepProg与其他方法的比较
为了评估DeepProg方法,作者将上述32种癌症的结果与相似网络融合(SNF)算法得到的结果进行了比较,SNF算法是一种集成多组学数据的最先进的方法。以前,SNF被用来识别与其他人的生存相关的癌症亚型。如B所示,SNF的生存亚型仅在32例癌症中有13例存活率有显著差异(p值<0.05)。总而言之,DeepProg产生了更好的对数秩p值(B)和C指数(C)。作者还通过TCGA HCC和BRCA数据集,用简单的PCA分解和两种矩阵分解方法(包括MAUI和MOFA+)代替了DeepProg配置的自动编码器步骤,在HCC中,PCA和MOFA+的c -index分别为0.60和0.59(A, B),而DeepProg的c -index为0.76(C)。在BRCA中,PCA和MOFA+的c指数分别为0.58和0.62(D, E),而DeepProg的c指数为0.77(F)。
利用其他队列验证DeepProg的性能
DeepProg工作流的一个关键优势是:它能够预测任何具有常见RNA、miRNA或DNA甲基化特征的新个体样本的生存亚型。为了验证DeepProg模型的患者生存风险分层,作者将它们应用于外部的独立癌症数据集,其中两个来自肝细胞癌队列(A,B),四个来自乳腺癌(BRCA)队列(C,F)。作者得到的C指数为0.80,对数秩p值为1.2E−4(LIRI),C指数为0.73,对数秩p值为1.5E−5(GSE)(A,B)。四个BRCA数据集的C指数为0.68-0.73,生存差异的对数秩p值均显著(<0.05)(C,F)。因此,作者通过其他的HCC和BRCA队列验证了DeepProg的可预测性。
识别预后最差亚型的特征基因揭示了泛癌模式
为了识别与患者生存差异相关的关键特征,作者对生存最差患者子集中显著过表达或过表达的各组学层特征进行了全面分析。接下来,在过表达或过表达的特征中,作者从输入数据类型中选择Wilcoxon秩检验p值小于1e−4的重要特征。对于这些特征中的每一个,作者计算了每种癌症类型的单变量Cox-PH回归,并基于-log10 (p值)对它们进行排名。将这些等级归一化后,作者通过汇总所有32种癌症类型获得了一个泛癌症等级。RNA-Seq分析显示,在表现最差的生存组中出现了一些过度表达的基因模式(A)。利用排序值,作者对肿瘤和基因进行聚类,检测到两个清晰的基因簇,分别富含细胞周期和有丝分裂的生物学功能(adv . p值= 3e−42)和细胞外基质组织通路(adv . p值= 6e−9)(a)。此外,分析显示了两组不同的癌症,其中GBM、HNSC、OV、STAD、COAD、LUSC和KIRC属于一组,PRAD、PAAD和LUAD属于另一组(A)。研究表明,CBX7的下调在癌症进展中发挥了关键作用。同样,EZH1抑制被证明参与了细胞增殖和癌变。此外,锌指家族的多个基因(ZBTB7C、ZMAT1、ZNF18、ZNF540、ZNF589、ZNF554和ZNF763)均下调。ZNF基因是一个庞大的转录因子家族,其中许多基因在肿瘤进展中显示出相关性。
RNA-Seq共表达网络分析
为了进一步鉴定与最差存活亚型相关的RNA-Seq基因表达,作者进行了全球基因共表达分析。对于每种癌症类型,作者从生存最差的亚型(A)中选择差异表达基因,并构建泛癌共识共表达网络。作为说明,作者使用前200个基因和最重要的相关基因(B)构建了共表达的子图,并进行基因群落检测。很大一部分共表达基因与前面强调的生存基因重叠。此外,该网络还分别揭示了淋巴和非淋巴细胞通路(第2组,Q值=6e−10)和平滑肌收缩(第3组,Q值为7e−12)两组与免疫调节相关的基因。与签名基因结果(A)相似,基因-癌症聚集图在RNA共表达方面显示CoAD和STAD之间非常相似的地方(C)。为了解决患者体内肿瘤异质性的潜在混杂问题,作者使用XCell来分离每个患者的细胞类型。然后,作者使用Logistic回归调整了所有细胞类型成分的基因。肝癌和癌旁组织的Kendall-Tau相关分数分别为0.5 2(p值<1.04e−2 5)和0.5 5(p值<3.5e−15 0)。高度显著的p值否定了这两个DE基因排名是独立的假设。
类似的癌症类型可以用作预测模型
基于观察到的某些癌症之间的相似性,作者探索了这些模型是否适用于转移学习,也就是说,建立在一种特定癌症类型上的模型可以用来预测另一种癌症类型患者的生存。作者测试了所有32对癌症,交替用作训练和测试数据集。许多癌症模型在预测其他癌症类型方面是有效的(A)。有趣的是,根据间皮瘤(MESO)数据建立的模型显著预测了12种其他癌症类型的亚型,p值从0.048到4.8e−6,C指数从0.58到0.82。一般来说,生物学上更相关的癌症类型具有更高的交叉预测准确性。STAD模型显著地预测了COAD样本的亚型(p值=0.018,CI=0.6)(B),反之亦然,对于STAD样本的COAD模型预测(p值=5.4E−3,CI=0.66)(C)。作者进一步调查了潜在的来源。Read显示了与STAD和CoAD相似的前100名基因表达模式;然而,在miRNA和甲基化水平上的前100名功能中则有很大不同。
本文小结:DeepProg是深度学习和机器学习方法的新集成框架,它使用多组学数据有力地预测患者的生存亚型。预计DeepProg模型可以为预测癌症等疾病的患者生存风险提供信息。