基于深度学习的甲基化时钟

admin 35 2025-01-18 编辑

随着对衰老研究的深入,已发现表观遗传时钟是一种工具,可以帮助研究人员更好地理解和衡量衰老过程。基于几个甲基化位点,就可以预测实际年龄。近日npj aging发表的论文“A pan-tissue DNA-methylation epigenetic clock based on deep learning”的论文,整合了来自7个人体器官,总计142个公开数据集后,通过深度神经网络,构建年龄预测模型AltumAge。研究者还发现和年龄增长线性相关的甲基化位点以及基因通路。通过AltumAge的预测结果,在独立数据集上,能够更好的预测肿瘤,以及糖尿病,多发型硬化等年龄相关疾病的发病率。综上所述,这表明了深度学习在衰老领域的应用,可以提升模型的性能和可解释性。

https://www.nature.com/articles/s41514-022-00085-y

之前基于表观遗传的年龄预测,使用数百个CpG位点,通过线性回归计算。然而这无法捕捉CpG位点中的非线性关系。考虑到表观调控的复杂性,以及不同器官间的差异,AltumAge采用Illumina及EPIC芯片的数据,选取20,318个甲基化位点,使用多层感知机,构建跨组织的年龄预测模型。

:AltumAge甲基化年龄预测模型的训练过程

模型训练完成,可以通过去除位点的方式,可以评价单个CpG位点对于甲基化年龄预测的贡献度(.b),找出和年龄呈线性相关的位点。还可以计算不同基因上的位点之间的相互关系,例如中的两个点,当基因B上的CpG位点过甲基化之后,基因C上的位点的甲基化程度将不会对AltumAge的预测有影响;而右图描述的是两个相关的甲基化位点,即基因C在基因B上的CpG位点过甲基化之后,依然和AltumAge预测的年龄成线性关系。据此,可以找出与衰老相关的甲基化互作和通路。

,基于sharply值模型解释度示意图

在训练阶段,对模型准确性的验证通过去除单一样本验证的方式进行,对比线性模型ElasticNet和AltumAge,发现深度学习模型的预测误差更低。虽然 AltumAge 在 ElasticNet 上的性能改善并不显著,但是在老年人和新的组织类型中表现更好。

,AltumAge模型和Elastc Net模型的预测误差对比

不仅深度学习的模型预测更加准确,且该模型在数据中包含噪音时,其预测误差相比线性模型更低,这说明对于真实中包含测序错误和批次差异的数据,深度学习模型的效果会更好。

,在训练数据增加不同大小的随机高斯噪音后,不同模型预测年及年龄平方均方差

深度学习模型已经在一些生物学任务中显示出了前景,因为它们在非结构化数据的表现很好。多年来,它们一直被视为“黑箱”模型,但新的解释方法使它们有可能获得有趣的见解。通过将找到的和年龄相关的甲基化位点按对预测重要性排序,发现这些位点大多位于已发现的和年龄密切相关的通路,如 SIRT, mTOR和AMPK上,此外,通过KEGGMapper,新发现预测模型用到的甲基化位点位于与衰老无关的基因,例如NHLRC1与蛋白水解有关,KLF14和二型糖尿病有关,BCO1和生长因子的代谢有关,以及和癌症和神经退行性疾病有关的FZD9基因。鉴于表观遗传学研究的最新进展,找到这些 DNA 甲基化位点来延缓或逆转衰老可能是未来干预治疗该疾病的必要手段。

更有趣的发现,来自甲基化位点互作和年龄之间的关系上。下图展示了三种可能的位点之间的两两互作,图a和图b描述的年龄相关的甲基化位点,其相互之间是独立的,因此 a中两个位点的sharply值几乎位点对角线上,当cg22736354分别处于过甲基化和降甲基化时,对年龄影响最大的前一千个甲基化位点(例如cg04084157)和预测年龄的sharply值也相近,即cg04084157不受cg22736354的影响。

d的图描述的情况,是cg10523019 甲基化的情况对年龄的贡献,受到其它位点的影响,例如在当cg19722847过甲基化时,对预测年龄的贡献只有在cg19722847降甲基化时的一半。这说明cg10523019的甲基化情况与年龄的关系,和其它基因上位点有关。

而f,则指出其它甲基化位点的甲基化情况将会导致甲基化和年龄之间的非线性关系,例如cg19722847处于过甲基化时,cg12373771 甲基化和年龄的关系呈线性,而当cg19722847降甲基化时,会使cg12373771和年龄呈非线性关系。对此的生物学解释是位于 ipo8基因内的 cg19722847可以调节位于 rhbdd1的 cg10523019的甲基化过程,这说明了表观遗传和衰老的关系,超越了单位点的线性关系,需要通过深度学习模型,整合非线性的互作。而AltumAge 与其他深度学习推理方法相结合,可以提供呈现高度相互作用的 CpG位点列表,鉴于表观遗传编辑干预在基因组中的位置,由于染色质结构的原因,可能很难确定干预的主要位点。而了解次要 CpG 位点如何影响 CpG 的兴趣与年龄相互作用可以指导这些干预措施。

:三种甲基化位点间相互关系的示意图

之后研究者为了论证AltumAge预测的表观生物学年龄的生物学意义,在独立的(没有用于模型训练)疾病数据集上(包括癌症和多种和年龄相关的疾病)上,对比病患和健康人的表观生物学年龄,发现大部分健康对照组和疾病组之间有显著的年龄差异,见。肿瘤的年龄加速可以被认为是细胞进一步偏离了Waddington’s 的原始状态导致的。这些结果说明了甲基化年龄对疾病预测可能会有帮助。

年龄相关的疾病和不同部位的癌症数据集,使用AltumAge模型预测的表观生物学年龄对比

除了疾病上的应用,在多能干细胞和胚胎干细胞传代数的传代数和表观年龄之间,存在相关性。对比了AltumAge和Novath模型预测的年龄与传代数之间的关系,可以看到AltumAge模型预测的年龄相关性更强。说明AltumAge模型能够更好地捕捉与衰老相关的生物学过程。

AltumAge和Hovarh'模型预测年龄和多能干细胞和胚胎干细胞传代数的传代数之间的散点图

在衰老领域,深度学习的另一个有趣的应用是直接预测死亡率的表观遗传时钟的关系。目前,最先进的死亡率预测器是基于线性 Cox 比例风险模型创建的 GrimAge,预计使用神经网络,包含非线性关系和 cpg 相互作用的模型,将导致更好的寿命预测。

总结来看,相比之前使用甲基化预测年龄的工具,AltumAge使用的信息更多,模型更复杂,预测更准确,且具有可解释性。使用AltumAge得出的预测,对癌症及年龄相关的疾病有预测效力,之后预期可使用类似的深度学习工具,在更多可用数据的加持下变得更加准确,不仅用于研究,还可以针对健康人提供基因检测,甚至进行法医检测,判定嫌犯年龄。

基于深度学习的甲基化时钟

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 免疫浸润新玩法-细胞对思路重磅来袭
相关文章