卷积神经网络结合多组学数据构建预测生存模型-行业观点-衍因科研协作平台

卷积神经网络结合多组学数据构建预测生存模型

admin 158 2025-01-19 10:25:43 编辑

大家好呀！今天给大家介绍一篇2021年7月发表在Bioinformatics（IF:6.937）上的文章。作者使用CNN和多组学数据构建可以预测胶质瘤患者生存期情况的预测模型。

PathCNN: interpretable convolutional neural networks for survival prediction and pathway analysis applied to glioblastoma

PathCNN:卷积神经网络预测胶质瘤的生存情况和通路分析

摘要：

卷积神经网络（CNNs）在图像识别和计算机视觉方面取得巨大成功。然而，由于深层神经网络的主要障碍是缺乏可解释性并且生物矩阵数据是以非网格结构形式不能直接应用CNN。为解决以上问题，作者提出一种新的方法—PathCNN。该方法使用新定义的路径图像在多组学数据上构建一个CNN模型。PathCNN可以准确区分胶质瘤（GBM）的长期生存（LTS）和非长期生存（non-LTS），使用可视化分析和统计分析可以鉴定与GBM有关的通路。总的来说，PathCNN表明CNN可以应用于多组学数据预测胶质瘤患者的生存情况。

方法：

1.数据

从cBioPortal数据库下载GBM的mRNA数据，CNV数据和DNA甲基化数据。分别用G，C和M∈Rn×r，n和r代表样本数量和基因数量。长期生存（LTS）定义为生存期超过2年，non-LTS定义为生存期未超过2年。

2.通路图像

从KEGG数据库获取通路信息和通路相关基因，共获得146条通路。对于通路pi，从mRNA表达矩阵G提取相关基因，生成中间矩阵B∈Rn×ri，ri是通路pi中涉及的基因数量，矩阵B的行为样本数量，列为通路pi中涉及的基因数量。对矩阵B进行PCA分析，生成Gpi∈Rn×q，q代表PCs数量。对CNV数据和DNA甲基化数据进行同样分析，分别生成矩阵Cpi∈Rn×q和Mpi∈Rn×q。由于共有通路146条，因此合并后的矩阵分别为Gp∈Rn×146q，Cp∈Rn×146q和Mpi∈Rn×146q。对每个样本sj生成单一矩阵Gsj∈R146×q，Csj∈R146×q和Msj∈R146×q。将三个矩阵合并生成每个样本sj的通路图像Ksj∈R146×3q，行为146条通路，列为3×q个PCs，作为CNN模型的输入（）。

3.通路排序

使用Grad-CAM鉴定GBM中与LTS相关的重要通路。计算146条通路间的Pearson相关性，相关性最高的通路排在通路图像的最上方。

4.CNN结构

CNN结构的输入为通路图像，共包括两个卷积层，一个max-pooling层，一个dropout层和输出层（）。

5.使用Grad-CAM鉴定关键通路

使用Grad-CAM鉴定通路图像上与GBM患者LTS有关的重要像素点（A）。对于给定像素点计算LTS组和non-LTS组的统计学差异（B）。

结果：

1.数据集的获取和下载

本研究包含528例患者共有12042个mRNA表达，24776个CNV和1807个DNA甲基化数据。共有343例患者包含三种组学数据，共有8037个基因包括这三种组学数据。LTS组有55例患者，non-LTS组有232例患者。共有4989个基因涉及146条KEGG通路，每条通路有68个基因参与。对每种组学数据的通路进行PCA分析。LTS组和non-LTS组的平均年龄分别为48和61，两组年龄具有显著差异。由于患者年龄对生存具有重要作用，因此CNN模型将年龄纳入分析。

2.模型性能

利用通路图像构建的CNN模型对GBM的LTS和non-LTS进行分类，并进行5倍交叉折叠验证。通路图像包括146行（每行代表一条通路）和3×q列（q代表PC数量）。例如，q=2代表每列代表每种组学数据排名前2位的PC，组学数据排序为mRNA，CNV和DNA甲基化。在建模过程中，q的值选择从1到5。如所示，当q=2时模型的性能达到饱和，AUC值为0.753。当模型没有纳入年龄数据时，q=2时AUC为0.677，结果表明年龄对建模的重要性。

随后，作者比较mRNA，CNV和DNA甲基化数据的排序对模型性能的比较。三种组学数据排序为CNV，mRNA和DNA甲基化时AUC最差，为0.736，排序为CNV，DNA甲基化和mRNA以及DNA甲基化，mRNA和CNV时AUC分别为0.741和0.747。其他排序方法的平均AUC为0.755，与本研究的排序方法结果相似。模型性能的差异可能是由于不同数据的相关性造成的。

为评估对模型性能影响最大的组学数据类型，作者分别使用两种组学数据构建模型。如所示，基于mRNA和CNV构建的模型和基于CNV和DNA甲基化构建的模型AUC分别为0.749和0.748，mRNA和DNA甲基化构建的模型AUC为0.740。此外使用单一组学数据mRNA，CNV和DNA甲基化构建的模型AUC分别为0.699，0.715和0.687。

3.与其他模型的比较

作者将PathCNN和logistic回归，SVM，全连接神经网络和MiNet的预测性能进行比较。此外，作者还从TCGA数据库下载了其他癌症的mRNA，CNV和DNA甲基化数据，包括肾癌，低级别胶质瘤（LGG）和肺腺癌（LUAD）。表1为每种癌症的基因数量，对于其他三种癌症来说，LTS定义为生存期超过三年，non-LTS定义为生存期未超过三年。LTS组和non-LTS组分别有154和69例，156和75例，110和115例。结果如表2所示，对于大多数癌症来说PathCNN的性能优于其他机器学习方法，对于LGG来说RBF和SVM的性能较优于PathCNN。有趣的是，PathCNN的标准差最小表明PathCNN的稳定性最好。

4.鉴定关键通路

为鉴定与GBM患者生存有关且与年龄无关的生物学机制，作者将年龄从CNN模型中去除，使用通路图像输入训练模型。统计学检验结果表明，有4个区域的p值小于0.001，共包括15个像素和10条通路（和表3）。每个像素代表一个PC，mRNA的PC1和PC2。富集于细胞因子-细胞因子受体互作，趋化因子信号通路和NOD-like受体信号通路。CNV的PC1和PC2富集于α-亚麻酸代谢和亚油酸代谢通路。与亚油酸代谢和α-亚麻酸代谢有关的基因分别有29和19个基因，共有基因16个。根据PC值的中位数将患者分为不同亚组，使用KM分析研究亚组的生存情况。A-7D为mRNA富集的通路细胞因子-细胞因子受体互作，趋化因子信号通路，NOD-like受体信号通路和ECM受体互作的KM分析结果，E和7F为CNV富集的通路亚油酸代谢和神经活性配体-受体互作的KM分析结果。

结论：

作者基于通路图像的概念和多组学数据构建CNN模型以预测胶质瘤患者的生存情况—PathCNN。该模型可以准确的预测胶质瘤患者的长期生存期和非长期生存期，且性能优于机器学习方法。

NC重磅！CellChat：单细胞通讯分析工具！

805 2024-12-18

卷积神经网络结合多组学数据构建预测生存模型

SMART蛋白质结构域注释的20年(附用法）

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

单酶切和双酶切的区别，了解这两者的特点

如何通过智能科研工具提升研究效率与数据分析助力科研创新

SMART蛋白质结构域注释的20年(附用法）

深度学习与生物医药AI大模型如何重塑药物研发的未来？

如何在NCBI上查找基因的CDS序列

最新文章

分子生物学名词解释核心概念与蛋白质组学解读

分子生物学实验技术：体系分类、优化策略与应用案例

分子生物学试剂：保存条件、失效判断与应用指南

《医学分子生物学杂志》学术前沿与投稿指南

分子生物学实验的核心技术与应用

现代分子生物学的主要研究领域

分子生物学技术的主要分类与应用场景

生物化学与分子生物学的学科概述与核心研究内容

分子生物学软件的核心功能与优势

分子生物学工具：核心功能、应用场景与发展趋势解析

热门标签