整合分析胶质瘤中
DNA甲基化和基因表达来识别关键表观基因Integrative analysis of DNA methylation and gene expression to identify key epigenetic genes in glioblastomaIF:4.867;2019.8 胶质母细胞瘤(GBM)是世界上最常见、最具侵袭性的原发性脑恶性
肿瘤。然而,病人的生存率仍然很低。因此,迫切需要对GBM的
肿瘤分子学进行研究。在这里小编向大家介绍一篇刚刚发表的识别胶质瘤中关键表观基因的文章。长话短说,让我们一起来看下文章都研究了哪些内容吧研究的主要流程:
研究的主要流程如所示DNA甲基化数据的选择以及刻画由于启动子区域的DNA甲基化对基因表达有很强的影响,作者选择了启动子区域的CpGs,该启动子区域为来自TSS上游2 kb到下游0.5 kb之间。经过数据预处理,最终得到145,907个甲基化位点用于后续分析。临床患者的刻画在这一部分作者获得了包括样本ID、生命状态、初始病理诊断年龄、死亡天数、随访天数、分级等临床信息。所有样本随机分为两组:训练集(n = 69)和测试集(n = 69)。训练集和测试集需要满足以下条件:首先,将样本随机分配到训练集和测试集;其次,两组患者的年龄分布、随访时间及死亡率应相近。确定胶质瘤中的差异表达基因
在这一部分,根据筛选标准,所有
肿瘤和正常样本共获得4881个显著DEGs,其中上调基因1111个,下调基因3770个。最显著的100个基因的表达谱如所示。训练集中甲基化位点的生存分析作者为了确定与生存结果相关的甲基化位点,对获得的GBM甲基化位点进行单变量和多变量Cox
回归分析。共得到11,269个甲基化位点,生成了一个新的生存-甲基化表达谱以供进一步分析。DEGs与生存甲基化基因的相关性分析
作者分析了上调DEGs和下调生存甲基化基因之间的Pearson相关性,以及下调DEGs和上调生存甲基化基因之间的Pearson相关性。如A所示,发现上调DEGs和下调生存甲基化基因之间共有198个基因。此外,在下调的DEGs和上调的存活甲基化基因之间有111个基因。接下来,对肿瘤样本和正常样本之间DEGs的启动子甲基化分布进行了分析。结果表明,肿瘤高表达基因在正常样本中启动子甲基化程度较低,说明启动子DNA甲基化与正常和肿瘤组织中基因表达呈负相关(B)。EI和ES基因的通路富集分析
作者发现了198个高基因表达的低启动子甲基化(EI基因),以及111个低基因表达的高启动子甲基化(ES基因),对这些基因进行功能富集分析,如A,而这些基因的互作关系如B所示。这些结果表明,研究筛选的EI和ES基因参与了GBM发生发展的生物学过程。基于甲基化基因的预后风险模型构建
表1在无监督聚类分析中,作者选取了上述两个基因的20个CpG甲基化位点(表1)。利用欧几里德距离计算样本之间的相似性,发现所有样本都可以根据20个CpG甲基化位点分为类1和类2。而类1的甲基化水平较高,类2的甲基化水平较低(A)。进一步分析两组患者预后。如B所示,发现低甲基化组的预后明显好于高甲基化组。此外,作者比较了两组患者的年龄,发现低甲基化组患者的年龄分布低于高甲基化组(C)。GBM中IDH1突变与DNA甲基化
在这一部分为探讨GBM中IDH1突变与DNA甲基化的关系,作者将所有样本根据IDH1基因突变分为IDH突变组(n = 7)和IDH非突变组(n = 131)。如所示,IDH突变组的样本甲基化水平低于IDH非突变组。然后,比较了两组中每个甲基化位点的表达。如所示,发现20个位点中有19个在IDH突变组和IDH非突变组之间有显著表达。上述结果提示,这些甲基化位点与IDH1突变密切相关。在TCGA测试集和GEO数据集中进行验证
为了验证甲基化数据和预测模型的结果,使用了基于TCGA数据的测试集(n = 69),使用20个甲基化位点的表达,并进一步使用层次聚类分析。发现20个CpG甲基化位点也可以将所有样本清晰地分为两组(A)。类1组甲基化水平明显高于类2。此外,低甲基化组的预后明显好于高甲基化组(B)。也可以看出,低甲基化组的年龄分布低于高甲基化组,这与训练集的结果一致(C)。此外,下载GBM的DNA甲基化(GSE36278)数据,共142例患者。选择20个甲基化位点的表达谱和临床资料。接下来,使用层次聚类方法将所有样本分为两组(A)。结果显示,两组患者的生存率存在显著差异(B)。此外,比较了两组间的年龄分布,发现高甲基化组高于低甲基化组(C)。这些结果与TCGA数据集一致,说明该模型可以应用于其他样本。到这里,这篇文章的主要内容就介绍完了,可以看出作者结合了GBM的甲基化数据以及表达数据,识别出了关键的表观基因,研究的角度和方法小伙伴们可以借鉴呦。
有分析需求的加微信哦
欢迎关注