大家好~ 小编今天和大家分享的是最新发表在AGING杂志上的一篇文章,作者基于细胞周期相关基因来构建胃癌患者预后模型,为胃癌患者的诊疗及预后效果评估提供了新参考,虽然简单,但借鉴意义很强,难道你们不想学吗?ok 进入主题~
哺乳动物的细胞周期具高度的组织结构性,其精准调控对于遗传物质的复制和细胞分化具重要作用。细胞周期的调控机制包括生长调节和遗传完整性。癌症表现为细胞周期活性的异常,这可能是由于下游信号通路中的基因突变或编码细胞周期蛋白的基因发生变异而导致的。一些细胞周期调控因子的变异能够导致胃癌(gastric cancer, GC)的发生。研究发现,细胞周期调控因子能够作为胃癌患者的预后标志物,具重要的临床价值。
![干湿结合:5+胃癌患者预后模型新玩法](https://www.yanyin.tech/cms/manage/file/6969887b580946ca9dcc5da74bdf80f3)
胃癌是全球最常见的5种癌症类型之一,具较高的发病率和死亡率。尽管采取手术和辅助疗法等,但患者的预后效果仍并不理想,5年存活率低于25%。目前,预后预测主要依赖于组织病理学诊断和肿瘤分期。然而,很多患者尽管临床病理特征相似,但预后情况却存在很大差异。
虽然已经花费了大量的努力来开发用于胃癌患者预后预测的最佳工具,但目前还未达成共识。在目前已发表的大部分文章中,通常使用临床基本特征(例如:肿瘤大小、淋巴结数目和淋巴血管侵犯等)和单分子生物标志物(例如:CD44、PPAR γ、IL-13Rα2、HDAC6)来构建预后模型。但仅仅使用单基因生物标志物来进行患者预后预测是远远不够的。随着测序技术的不断发展,预后相关的多标志物整合对于胃癌患者的预后预测具重要的潜在应用价值。
本研究中,基于TCGA-STAD数据集,作者首先鉴定在癌和癌旁正常组织之间差异表达的细胞周期相关基因。然后,使用单因素cox和LASSO分析进一步筛选和胃癌患者预后显著相关的基因,并基于这些基因构建预后模型。同时,从GEO数据库下载GSE84437数据集作为验证集,对模型进行验证。
1 材料与方法
1.1 基因表达谱数据的获取
从TCGA数据库下载胃癌患者基因表达谱数据TCGA-STAD,共获得癌症样本375例,正常组织样本32例。细胞周期相关基因列表从KEGG数据库获取,共获得125个细胞周期相关基因。从GEO数据库下载GSE84437数据集作为验证集,用于预后模型的验证。
1.2 差异表达的细胞周期相关基因的鉴定
差异分析使用R package limma。以FDR < 0.05且logFC > 0.5作为差异基因的筛选标准。
1.3 预后模型的构建
使用单因素cox分析筛选与胃癌患者预后显著相关的差异表达的细胞周期相关基因。使用Wald检验计算每个基因的HR值和p-value,以p-value < 0.05作为筛选条件。使用R package glmnet进行LASSO回归分析,进一步筛选与患者预后相关更显著的基因。基于LASSO分析筛选出的基因,进行多因素cox回归分析构建预后模型,获得风险评分计算公式。将基因表达量带入公式,对患者进行打分,根据评分的中位数,将患者分为高、低风险组。接下来,作者通过KM曲线和ROC曲线进一步评估模型的准确性,并在验证集中进行验证。
1.4 列线图模型的构建
列线图模型的构建使用R package rms,纳入的因素包括:患者的生存信息、年龄、T分期、N分期和风险评分。使用C-index和AUC值来评估模型的敏感性和特异性。
1.5 基于免疫组化的基因表达水平评估
该部分研究,作者共获取250个肿瘤组织样本和144个正常组织样本,均来自我国胃癌患者(N = 250)。基于TCGA数据集的分析结果,发现CDC6和MCM3基因的表达水平与胃癌患者的预后显著相关。因此,作者选择这两个基因进行免疫组化实验来进一步验证基因的表达水平。
1.6 GSEA富集分析
基于TCGA-STAD队列中高、低风险组间的差异表达基因,使用GSEA算法鉴定差异基因的富集通路,以p < 0.05且FDR < 0.25作为筛选条件。
1.7 统计学分析
全部的统计学分析均在R v4.0.4中进行。使用χ2检验评估风险评分与临床特征之间的相关性。使用KM曲线和log-rank检验来评估高、低风险组间患者的生存差异。单因素和多因素cox用于计算风险评分和患者生存状态的相关性。AUC值用于评估模型预测的准确性。
2 结果
2.1 基于细胞周期相关基因的预后模型的构建及验证
基于TCGA数据库334个胃癌患者(OS > 30d)、55个细胞周期基因的表达矩阵构建预后模型。单因素cox回归分析初步筛选出7个与胃癌患者预后显著相关的基因,分别为:GADD45B、TFDP1、CDC6、CDC25A、CDC7和SMC1A。LASSO回归分析结果没有进一步筛选掉基因,因此这7个基因被纳入到预后模型的构建。多因素cox分析得出风险评分公式为:0.0090 × GADD45B表达量 - 0.0116 × TFDP1表达量 + 0.0053 × CDC6表达量 - 0.0177 × CDC25A表达量 - 0.0127 × CDC7表达量 - 0.0157 × SMC1A表达量 - 0.0018 × MCM3表达量。基于上述风险评分公式,给每一个患者进行打分,将患者分为高、低风险组。
预后模型的验证使用GEO数据集GSE84437,同样仅纳入OS > 30d的患者,共431例。根据训练集得出的风险评分公式,将患者划分为高、低风险组。接下来,作者基于KM算法绘制高、低风险组患者的生存曲线。从中可以看出,训练集和验证集中高、低风险组间患者的生存均存在显著差异。
2.2 预后模型和临床指标的预后风险值
纳入的临床指标包括:年龄、性别、T分期和N分期,TCGA和GEO队列均为上述4个指标,评估患者临床病理特征与其预后情况的相关性。通过单因素和多因素cox分析结果,作者发现患者年龄、T分期和N分期与其预后情况显著相关。此外,分析结果表明,所构建的预后模型(风险评分计算公式)可作为生存状态的独立预后因素。
接下来,作者通过ROC曲线评估模型的特异性和敏感性()。训练集和验证集ROC曲线下面积-AUC值分别为:0.656和0.629,说明模型具中等水平的特异性和敏感度。
2.3 列线图模型的构建及验证
作者纳入年龄、T分期、N分期和风险评分共4个因素来构建列线图模型。从中可以看出,该模型对胃癌患者1年生存率的预测具较好的效果。临床模型(包括年龄、T分期、N分期)、预后模型和列线图模型的一致性指数(consistency indices,C-indices)分别为0.636、0.622和0.677。临床模型的C-index显著低于列线图模型(p < 0.001)。将临床模型和预后模型进行合并,1-、2-、3-年生存率的AUC值分别为:0.708、0.727和0.657。因此,作者认为,列线图模型对于胃癌患者生存预后预测能力要优于临床模型。
2.4 蛋白水平的免疫组化验证
通过免疫组化实验获得234名中国胃癌患者的CDC6和MCM3基因的表达水平。作者发现,这两个基因在肿瘤组织中的表达水平显著高于正常组织(p < 0.01)。在全部的患者中,其中有232名患者的生存时间大于30天,我们仅将这些患者的生存数据纳入到单因素和多因素cox分析中。分析结果表明,TNM分期与胃癌患者的预后显著相关(表1)。此外,CDC6基因可作为T1-3N1-2M0分期患者的独立预后因素,且在ACJJ的第7版本中没有出现肿瘤血管血栓()。
2.5 GSEA富集分析
基于TCGA-STAD队列差异基因的GSEA富集分析结果表明,细胞周期通路显著富集在低风险组(p < 0.001且FDR < 0.001)。
3 全文结论
作者基于TCGA和GEO数据集构建了7个细胞周期相关基因的预后模型。该模型能够促进胃癌患者的个体化诊断和治疗,并进一步地提高患者的预后。