深度学习想发Nature?看这篇就够了

admin 106 2025-01-14 编辑

随着基因测序技术的进一步突破,我们已经能识别人群中数以万计的基因突变,在以往的研究里,都是针对某一基因上一些突变来研究其与疾病的关联,以此来采取预防或治疗的手段,但若是基因突变的数量以十万级为单位呢,对于这些变异,我们如何得知该基因突变是否会影响基因功能,从而导致疾病呢?下面就跟着小编一起来看看如何使用深度生成模型来检测数十万在不同物种中的基因变异模式,以此来预测哪些序列变异会导致疾病。

一、研究背景

人类基因组测序的指数增长突显了人类群体中存在的大量遗传变异,量化基因组中特定变异与疾病相关联的遗传研究将对临床方案产生显著影响。然而,现有的探测技术并不能完全的探测到人群中基因变异数量,超过98%的变异对人体产生的影响仍是未知的。

现有临床上已经存在可以评估数千个基因变异影响的模型,但这些模型不容易扩展到数千种蛋白质,尤其是变异组合,并严重依赖于与人类疾病表型相关或至少相关的检测方法的可用性。并且这些模型往往在临床标签上进行有监督学习,而标签偏差、标签稀疏性、标签噪声和数据泄漏将夸大在现实预测场景中的准确率,因此这类模型的结果通常被认为是不够可靠的。

基于此,来自哈佛大学医学院和牛津大学的研究人员一篇发表在国际顶刊Nature(IF:49.962)上的文章,其开发了一种基于进化序列的深度生成模型,成功预测了3219个疾病基因中超过3600万个变体的致病性,并将超过25万个未知变体进行了归类。

 

二、结果

1、从进化预测致病性

基于进化数据深度生成模型的疾病变异预测系统分为两步。

第一步,使用深度生成模型---变分自编码器VAE学习每个蛋白质的氨基酸序列分布,捕获了进化过程中自然序列的约束,包括位置之间的复杂依赖关系。

在对进化序列进行训练之后,通过从 VAE 学习的近似后验分布中采样来估计每个单个氨基酸变体相对于野生型的相对可能性,这种相对可能性称之为进化指数。

当将此进化指数与临床标签进行比较时,区分致病性和良性标签的值在蛋白质之间明显一致,说明可采用无监督的方法来推断致病性。

 

第二步,在所有单一氨基酸变异的蛋白质进化指标的分布上拟合了一个双组分全局-局部混合高斯混合模型。

这一过程的输出是EVE评分,它是定义在[0,1]区间内的连续致病性评分,0表示最良性,1表示最具致病性。

对于这些分配,研究人员使用高斯混合模型的预测熵作为分类不确定性的度量,并将变异分为三类:良性、不确定性或致病性。

 

将EVE模型运用于ClinVar数据库中的3219个人类基因上(AUC=0.91),且EVE的性能对每个蛋白质的标签数量是稳健的,说明EVE模型可以预测绝大多数基因变异的临床意义,并能推广到注释较少的基因。

 

2、EVE模型优于已知模型, 和实验预测一样准确

研究人员将EVE模型与已知的模型进行比对,发现EVE 在预测已知临床标签方面优于所有有监督和无监督的方法。由于变异分类的结果因基因而异,研究人员所提出方法的一个重要特征是能够为预测分配一定程度的不确定性,允许在预测的准确性和变异的覆盖范围之间进行权衡。如果抛开越来越多的“不确定性”变异不谈,这样就可以使比已经确实分类为致病性或良性的变异更高的准确性。例如,排除25%的最不确定的变异导致致病和良性分类的准确率约为90%(b)。

研究人员对于计算预测是否和实验预测一样准确进行了检验。对于ClinVar中具有大量高质量标签的5个基因(BRCA1, TP53,PTEN,MSH2,SCN5A)来说,EVE在预测临床意义方面的总体表现与专为预测致病性而设计的深度突变扫描实验一致甚至更好,而当从ClinVar数据库中选择高质量标签较少的更大基因组的数据时,EVE模型的表现甚至更好

 

 

3、对 3600 万个变体的预测

研究人员为3219个疾病相关基因的3600万个单一氨基酸变异提供连续的EVE分数和类别分配。在这些变异中,迄今为止至少一个人类中观察到约有130万个变异,但这其中只有大约3%在ClinVar中有临床解释。在去掉25%最不确定的变异以保持大约90%的准确率之后,EVE的类别分配对总共约2700万个变异和超过80万个(约64%)的人类迄今看到的变异提供了解释。

所有单一氨基酸变异的连续得分提供了一个与类别分配的情况。EVE分数在蛋白质中的分布突出了高致病性簇,遵循了功能重要性可能预期的趋势,如疏水核心、配体结合和活性位点。例如,SCN4A-SCN1B离子通道复合物(PDB 6AGF38)中许多具有高EVE得分的变异位于复合物界面,排列在SCN4A孔和SCN1B的疏水核心。对于错配DNA修复复合物MSH2-MSH6(与Lynch综合征和大约20%的散发性癌症有关),在临床标记稀少(但在人群中观察到)的ADP和DNA (PDB 2O8B)附近,EVE致病信号强烈。

 

4、将 EVE 与其他证据结合

EVE 提供单一证据来源,使其非常适合与其他正交证据来源相结合。为了说明这一点,研究人员将模型类别分配与来自gnomAD2和其他形式的现有证据的人口数据结合起来,对25.6万个变异没有潜在临床解释的重新分类,另外539个变异与当前ClinVar状态相矛盾,表明EVE模型可以为变异解释提供有价值的独立证据

 

三、讨论

将机器学习与临床预测相结合,可以说是生信领域里一大热点之一。本文中研究人员提出了一种利用深度生成模型来预测变异致病性而不依赖标签的方法,采用深度学习计算机学习蛋白质的氨基酸序列分布,绘制跨生物体的序列变异分布进而在预测变异对蛋白质功能和稳定性的影响。

深度学习正在渗透到生物学领域,在生物学中,深度学习拥有大量数据及处理能力的技术,利用这些算法挖掘基因组数据,可以在识别遗传变异类型,药物发现、蛋白质结构预测、细胞图像分类等生物学领域中发挥着巨大的潜力,一篇SCI就到手了!

 

参考文献

[1] Frazer, J., Notin, P., Dias, M. et al. Disease variant prediction with deep generative models of evolutionary data. Nature 599, 91–95 (2021). https://doi.org/10.1038/s41586-021-04043-8

深度学习想发Nature?看这篇就够了

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: scRNA测序揭秘小神经胶质细胞
相关文章