大家好,今天跟大家分享的是2021年7月份发表在Frontiers in Cell and Developmental Biology (IF: 6.684)上的一篇关于衰老相关基因预后模型的文章。该文章利用衰老相关基因在肺腺癌中构建了LASSO Cox预后模型,是一篇经典的预后模型文章,思路清晰,可以借鉴该思路用于自己的分析中。让我来为大家梳理下这篇文章的思路。
An Aging-Related Gene Signature-Based Model for Risk Stratification and Prognosis Prediction in Lung Adenocarcinoma
基于衰老相关基因signature的肺腺癌风险分层和预后模型
1. 基于衰老相关基因识别与预后相关的signature
作者首先利用单因素Cox回归在TCGA-LUAD与GSE31210数据集中分别识别出58个和79个与整体生存(OS)有关的衰老相关基因,其中交集为19个(A)。接着作者使用LASSO回归对19个衰老相关基因进行筛选, 9个基因纳入到后续的多因素Cox分析(BC),最终构建出了一个包含6个基因的预后风险模型(D)。
.识别衰老相关的预后signature
2. 预后风险模型中基因的分析
在这里作者分析了风险模型中6个基因的表达(A),相关蛋白质水平(BC),突变的情况(图D),以及与临床特征(包括年龄、性别、肿瘤分期)的相关性()。
. 预后风险模型中基因的表达,蛋白质水平以及突变情况
. 预后风险模型中基因与临床特征的相关性
3. 高低风险组所关联的生物学过程及免疫浸润
接着作者在TCGA-LUAD数据集中,使用GSEA分析了高低风险组间差异基因所关联的通路()。此外作者检验了风险得分和肿瘤免疫之间的关系。A展示了训练集中低风险组和高危组的免疫细胞类型百分比。比较分析发现低风险患者表现出更高水平的naive B细胞,高风险组患者CD4记忆T细胞等水平升高(B)。同时还分析了免疫细胞类型之间的相关性(C)。
. 高低风险组间的功能差异
. 风险得分和肿瘤免疫之间的关系
4. 风险模型在训练集中的预后效能
作者将风险得分从低到高进行排序,并根据中值将样本分为低风险组和高风险组(A)。B显示了每个个体的生存状态和随访时间,C展示了风险模型中基因的表达。生存分析显示在高低风险组间存在着明显的生存差异(D)。同时来评估风险模型来预测不同生存年限的能力(E)。此外Cox回归分析,表明风险模型得分是一个独立的预后因子(FG)。进一步,作者进行了亚组分析,在控制了年龄、性别和临床分期后,模型仍有着较好的预后能力()。
. 风险模型在训练集中的预后效能
. 预后模型的亚组分析
5. 风险模型在验证集中的预后效能
在验证集中,根据中位风险得分将患者分为高低风险两组(A),模型内基因的表达如B。基于OS和RFS分别进行了预后效能评估(C-H)。结果表明预后模型展现出好的预后效能,高低风险组间存在明显的生存差异(EF),也有着较佳的预测1,3,5年生存的能力(GH)。
. 风险模型在验证集中的预后效能
6. 构建列线图
基于衰老相关signature、年龄、分级和性别建立预测列线图模型,该列线图直观地显示了预测1、3和5年生存的概率(A)。在1年、3年和5年的时间内使用ROC曲线分析来评价列线图。在训练集中模型预测1、3、5年总体生存的AUC分别为0.754、0.73、0.42(B)。在测试集中模型预测1、3、5年总体生存的AUC值分别为0.923、0.752、0.42(C)。为了进一步评价预后列线图的预测性能和临床用途,作者进行了校正曲线和决策曲线分析。在训练集和测试集中,列线图的校准曲线显示实际与预测概率之间的一致性很好(0AB)。此外,决策曲线表明与TNM分期系统相比,联合列线图模型的预测净收益较高(0CD)。
. 构建列线图
0. 列线图评估
本篇文章的内容就是这些。让我为大家梳理下思路:首先作者使用单因素Cox回归,LASSO回归和多因素Cox回归构建了衰老基因相关的预后模型,接着对模型内基因进行了一系列分析,包括表达,相关蛋白水平,突变以及与临床因素的关系,然后分析高低风险两组间的差异,最后在独立验证集中验证与评估该模型。此外作者还针对于该预后signature构建了一个列线图,并多角度评估了该列线图的效果。本文思路简单清晰,是一个常规的预后模型文章,小伙伴们可以基于其他的基因集合,在不同的癌症类型中来尝试这个思路的效果,做自己的分析。快来动手尝试一下吧,最后祝大家科研顺利!