今天跟大家分享的是发表在Clinical Epigenetics(IF: 6.5507)上的一篇文章,主要是基于DNA甲基化识别胰腺癌预后相关亚型,并阐述不同亚型患者在预后亚型,分子特征等多方面存在的差异。
胰腺癌中DNA甲基化预后相关亚型的识别
Identifcation of prognosis-related molecular subgroups based on DNA methylation in pancreatic cancer
1.数据
TCGA数据的胰腺癌表达,突变,拷贝数改变和甲基化数据。
2.基于DNA甲基化识别胰腺癌不同亚型
首先基于单因素Cox比例风险回归生存分析对CpG位点进行过滤,接着进一步基于多因素Cox比例风险回归分析识别出与预后相关的4227个CpG位点。基于CpG位点对胰腺癌患者进行一致性聚类。基于一致性聚类分析的标准,当CDF线下面积趋于稳定,没有明显增加时选取K值为4,将样本划分为4类(A-C)。不同亚型中4227个CpG位点甲基化表达及相应的临床病理信息如D所示。
. 胰腺癌亚型的识别
3.不同亚型的生存分析及临床特征比较
四组患者的总生存时间和无进展生存时间存在显著差别(A,C),其中C1组患者预后显著优于其他3组(B,D)。对四组患者的不同临床特征(年龄、性别、stage,TNM分期等)进行比较 (E-K),研究者发现不同亚型患者中的临床特征存在显著区别,其中C1组样本中富集到更多的年轻患者和肿瘤等级较低患者。以上结果表明,临床病理特征与亚型密切相关。
. 不同亚型的生存分析及临床特征比较
4.亚型的分子特征比较
为进一步研究预后相关亚型在分子机制上的差异,研究者对不同亚型患者的分子特征进行比较。在所有样本中突变频率最高的25个突变基因中,KRAS、TP53等基因在C1亚组的改变频率明显低于C2/3/4亚组(A-B)。另外,对4个亚型的六种免疫细胞浸润含量进行比较,发现C1组巨噬细胞、CD4+T细胞、CD8+T细胞的免疫浸润含量明显高于C2/3/4组(C-D)。以上结果表明C1组可能处于免疫增强状态,有助于解释C1组乳腺癌患者预后较好。
. 亚型的分子特征比较
SMAD4是一种已知的胰腺癌抑制基因。本研究结果表明SMAD4的表达与其拷贝数改变显著相关(A),SMAD4在C1组中表达显著高于C2/3/4子组,且在C1组中更易发生双缺失(B-C)。另外,本研究也发现PLEC表达水平与其拷贝数之间存在显著相关性(D)。在C1亚组中,PLEC表达水平明显低于C2/3/4亚组(E),而在C2/3/4亚组中,PLEC的扩增频率较高(f)。
.SMAD4和PLEC在C1和C2/3/4亚群中的拷贝数改变
5. CpG位点对应基因的GO和KEGG分析
为进一步研究预后相关亚群划分背后的分子机制,研究者对用于一致性聚类的4227个CpG位点所对应的基因进行GO和KEGG分析。首先基于GENCODE中的GRCh38注释对4227个CpG位点进行注释,最终注释到2939个基因。2939个基因在4个亚组间的基因表达模式存在差异,说明各亚组间存在内部异质性。对2939个基因进行进行GO和KEGG分析(B-E),KEGG分析的结果识别出多种经典的肿瘤相关通路,如PI3K-AktHippo、AMPK和P53信号通路(E)。
. CpG位点对应基因的GO和KEGG分析
6.基于五个CpG位点的预后预测模型的构建
为开发一种特异性工具来预测胰腺癌患者预后,研究者基于CpG位点的表达建立一个风险模型。首先,识别出在C1和C2/3/4亚组之间发生差异甲基化的CpG位点。C1组甲基化水平相对较低,而C3组甲基化水平最高,111个CpG 位点在C1和C2/3/4亚组之间发生差异表达(A-C)。
.差异甲基化位点的识别
为构建预后预测模型,研究者将所有样本随机分为训练集(N= 125)和验证集(N= 53),使用Lasso模型构建预后预测模型,最终构建出由cg23811464、cg19267846等5个位点组成的风险打分公式(A-B)。基于风险打分的中位数将训练数据和验证数据分成高低风险两组,其生存状态和5个位点表达如C-D,7F-G所示。不论是在训练数据,还是验证数据中,两组患者总生存时间均存在显著差异(E,H)。ROC曲线分析表明该打分模型在训练数据和验证数据中均有较好的分类效能(A,B)。
.CPG位点打分模型的构建
7.基于独立预后因素构建列线图模型
列线图模型可作为临床医师进行临床决策的可靠工具。本研究综合利用5CPG位点风险评分模型和其他临床病理信息,构建更有效、更直观的列线图模型。首先,基于单因素cox分析识别出可作为预后因素的临床特征,包括风险模型,年龄等。多因素Cox分析进一步识别出风险评分模型、年龄等为独立的预后相关因素。基于列线图模型分别预测胰腺癌患者1年、3年和5年生存率,ROC曲线表明该模型具有良好的预测效能 (C-D)。风险评分与列线图模型均具有良好的预测效能,然而风险评分模型的C-index低于列线图模型 (E-F)。为进一步比较风险评分和列线图模型的预测效果,研究者进行决策曲线分析,结果表明列线图模型的预测效果更好(G-H)。
. 列线图模型的构建
今天的内容就是这些,不知道大家都掌握的怎么样呢?让我们最后再来总结一下,首先基于单因素Cox比例风险回归生存分析对CpG位点进行过滤,接着进一步基于多因素Cox比例风险回归分析识别出与预后相关的位点,从而进行一致性聚类。聚类后的样本在生存时间,临床特征和基因组改变等方面存在显著差异。为进一步构建预后相关的CPG位点预测模型,研究者识别出在不同类别中存在差异的CPG位点,并基于lasso构建CPG预测模型,以及在临床中更为有效实用的列线图模型。
本文是一篇经典的基于DNA甲基化特征构建癌症预后标志的文章,非常适合大家学习。感兴趣的同学可以在本文的研究流程和研究思路基础上,对癌型,模型构建方法做许多改动或者提升,也行不错的文章就在向你招手哦~