转录组预后模型看腻了?那么试试多组学signature吧!

admin 6 2025-02-12 14:07:08 编辑

大家好呀!今天跟大家分享的是2021年5月发表在Computers in Biology and Medicine (IF:4.589)上的一篇文章,主要是根据深度学习和XGboost使用15种癌症的多组学数据构建预后模型。作者的研究表明基于多组学数据的模型准确的较高,其中mRNA数据的贡献程度最高。使用乳腺癌的三个GEO独立数据集验证DCAP-XGB的性能,结果表明该模型可以准确区分高风险组和低风险组。根据两个风险组的差异分析,鉴定到9个与乳腺癌高度相关的预后标志物,其中有7个基因已被文献证实。Integrating multi-omics data through deep learning for accurate cancer prognosis prediction基于多组学数据的深度学习构建癌症预后模型研究路线:1.数据获取从TCGA数据库下载mRNA,miRNA,DNA甲基化和CNV的数据。对所有特征进行缺失值处理和标准化。最终获得15种癌症的16160个mRNA特征,354个miRNA特征,20123个DNA甲基化特征和23600个CNV特征。从GEO数据库下载三个乳腺癌的验证数据集。表1 数据的统计信息2.本研究分析流程(DCAP)本研究分析流程如流程图所示。首先,将包含多组学数据的所有特征输入到一个降噪自编码器网络(DAE)中来获得代表性特征,使用这些特征可以通过Cox模型评估患者风险(流程图A)。由于获得所有患者的多组学数据较为困难,作者使用mRNA数据和XGBoost模型来构建预后模型。使用验证数据集来验证构建模型的准确性(流程图B)。3.基于多组学数据评估患者风险首先,作者对DCAP进行10倍折叠验证和独立检验,其C-index平均值为0.678和0.665(表2),表明该方法具有较强鲁棒性。在这15种癌症中,C-index在0.591到0.823之间。LGG(低级别脑胶质瘤)的C-index最高,STAD(胃腺癌)的C-index最低。LGG的C-index最高可能是因为LGG的样本数量最大。表2 15种癌症DCAP的10倍折叠和独立检验的C-index随后,作者对单一组学数据进行研究。mRNA的C-index为0.628而CNV的C-index为0.570(表3)。当排除一种组学数据构建DCAP时,排除mRNA时C-index下降幅度最大。以上结果表明,mRNA在鉴定高危患者中起到重要作用。表3 单一组学的C-index4.与其他方法比较作者将DCAP与其他使用多组学数据构建预后模型的方法进行比较。DCAP的C-index最高,PCA-Cox的C-index最低。表4 与其他方法比较5.使用XGboost构建癌症风险预测模型由于DCAP是基于深度学习构建的癌症预后预测模型,若没有必要的基因特征则DCAP不具有解释性。作者使用XGboost构建DCAP-XGB,其LUSC(肺鳞癌)的C-index为0.565,LGG的C-index为0.755。结果表明,尽管特征选择导致模型预测的准确性降低,但DCAP-XGB的预测准确性与之前结果一致()。 DCAP-XGB的C-index6.乳腺癌研究作者使用三个乳腺癌的GEO数据集测试DCAP-XGB的性能,如A所示高风险组和低风险组显著分离。对高风险组和低风险组进行差异分析,鉴定到159个DEGs(B和2C),其中有57个DEGs有文献证明与乳腺癌有关。 乳腺癌研究XGboost模型进行特征筛选得到223个基因,其中有9个基因是差异表达基因,这9个基因中有7个与乳腺癌相关(表5)。表5 乳腺癌预后markers小结:本研究,作者整合多组学数据构建了一个深度学习框架DCAP可以进行癌症风险评估。与其他方法相比,DCAP的性能更优。针对乳腺癌数据研究表明,DCAP-XGB可以显著区分高风险组和低风险组。根据两个风险组的差异分析鉴定到9个与乳腺癌显著有关的预后标志物。本研究使用了深度学习结合XGboost方法使用多组学数据构建泛癌种的预后模型,分析思路简单但是需要一定机器学习相关知识的基础。文末作者提供了本研究所用的代码,感兴趣的小伙伴快来学习起来吧。

转录组预后模型看腻了?那么试试多组学signature吧!

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: edgeR计算差异表达示例
相关文章