咚咚咚,您的生信早餐已送达,请及时享用~~~嘻嘻,朋友们,好久不见吖,小编最近在做遗传突变相关的课题,看了一些这方面的文章之后,发现在筛选疾病相关的突变位点时,大家基本上都会选择过滤掉同义突变,这样看似好像更严谨,但看着所剩无几的候选位点,小编不禁陷入沉思,难道这些同义突变就真的没有临床价值吗?经过一番检索,发现果然还是有相关研究的,于是小编选了几篇感觉还不错的想跟大家分享一下,有一篇2021年11月底发表在NAR上的文章,是对同义突变(sSNVs)进行影响预测的,我们重点来看一下吧。
突变类型有哪些?
关于分类,小编没有找到一个通用的标准,就按照大家常用的简单介绍一下。根据基因突变对蛋白质序列的影响,可以分为移码突变、同义突变、错义突变和无义突变等,本文重点讨论SNP哈。
★ 移码突变(InDel):一个或多个非3的整数倍的DNA序列插入或缺失,使得翻译出的蛋白质序列与之前完全不同。
★ 无义突变:DNA序列上的一个点突变使得编码氨基酸的密码子变为终止密码子,导致mRNA的翻译提前终止,产生较短的多肽链或蛋白质,通常没有功能。
★ 错义突变(非同义突变):DNA序列上的一个点突变使编码一种氨基酸的密码子变为编码另一种氨基酸的密码子,会影响蛋白质产物的结构和功能。
★ 同义突变:发生在基因编码区,由于遗传密码子的简并性,不改变氨基酸序列。
★ 沉默突变:不改变产物蛋白质氨基酸序列的点突变,发生在不编码蛋白质的区域或者为同义突变。
同义突变的作用机制
一个基因组携带的同义突变(sSNVs)并不比非同义突变少,而且,它们可能通过多种途径来影响基因功能(),导致疾病的发生。比如:
A、影响转录因子的结合,或者改变基因内顺式调控元件的活性,导致基因转录强度改变;
B、改变pre-mRNA的剪接模式;
C、导致mRNA二级结构以及稳定性的改变;
D、tRNA结合的摆动性导致多肽链的改变;
E、蛋白质折叠和RNA翻译在参与翻译的核糖体上同时进行(共翻译折叠),导致蛋白质结构的改变。
sSNV影响的预测
由于可用实验数据的有限性,预测sSNV影响的方法比较少,现有的计算方法大致可分为两类:专门预测sSNV的,如SilVA、reg-SNPsplicing、DDIG-SN、TraP 和IDSV;还有通用的方法,即同义突变和非同义突变都能预测,如CADD、DANN、FATHMM-MKL和MutationTaster2等。这些方法大多都过度依赖序列保守信号,除了CADD和DANN之外,其他几种预测方法都是基于HGMD和ClinVar数据库中的“致病”突变进行训练的,然而,“致病性”并不等同于“功能影响”,此外,实验性疾病突变注释的不可靠以及数据库之间数据的不统一性,使得对人类基因组中sSNVs的预测和注释变得复杂和困难,小编之前在使用不同工具进行预测时,发现很多突变位点的预测结果的确不统一。
本着长江后浪追前浪的原则,咱们重点看一下最新的预测sSNVs影响的方法——synVep,该方法基于机器学习,收集了密码子偏好性和自相关、蛋白质结构、mRNA稳定性、与调控/剪接位点的距离、转录表达谱等相关的35种特征,对每个可能的sSNV进行危害性评估。
突变标签定义:作者从Ensembl BioMart下载了转录本数据,过滤之后用ANNOVAR注释,筛选出所有可能的sSNVs。根据它们在gnomAD中出现的次数,赋予每个sSNV不同的标签。singleton表示只在gnomAD的一个个体中发现的sSNVs; observed代表gnomAD中除singleton外的其他sSNVs;generated代表除singleton和observed外的所有可能的sSNVs。此外,unobservable代表generated集合中被PUL标为可能是observed的sSNVs,not-seen则表示generated的其他sSNVs。研究还整合了170个经过矫正的sSNVs ,将其定义为curated-effect sSNVs。
模型构建:
(1)首先选择了” observed”和”generated”这两个突变集合,通过正样本无标签学习(PUL)方法将”generated”进一步分为”unobservable” 和”not-seen” (observable)两类;
(2)使用observed和not-seen集合训练了一个中间模型,对common sSNVs(MAF > 1%)、curated-effect sSNVs 、observed和not-seen sSNV进行打分;
(3)得分高于curated-effect集合均值的sSNVs定义为effect,得分低于常见sSNV集合均值的定义为no-effect。最后,得到了7,385,137个no-effect和32,117 ,625个effect sSNVs。
主要结果
对比common sSNVs集合和curated-effect sSNVs集合的得分可以发现,后者的更高,表明突变影响更大,与事实相符。在对这两类集合分类时,synVep有最高的auPRC 以及最低的auROC,这个问题,小编查了一下资料,PRC对数据不平衡更加敏感,这里作者用的两类集合的比例接近1:10,所以,ROC应该更可靠一点~但是,在默认阈值的情况下,synVep的精确度也是相对比较高的(.G)。
在对ClinVar数据库中的Benign和Pathogenic sSNVs的突变影响打分时,所有预测器的结果都是Pathogenic sSNVs的分值更高,即有害性更大。而且,在默认阈值时,synVep的分类准确度是最高的()。
研究将所有sSNVs进行了跨物种注释,CSVs代表人类参考序列和另一个物种的
直系同源序列之间的密码子差异。总体来说,CSVs的得分比非CSVs低,产生影响的可能性更小。作者还发现,物种特异性的CSVs的synVep得分同进化距离呈正相关关系()。
此外,研究还发现singleton比observed突变更有可能产生影响;剪接干扰突变的synVep得分高于非剪接干扰突变等,一些不是很重要的结果小编就不在此赘述了。
同其他方法相比,synVep没有使用疾病/有害性标记的训练数据,而是用了来自于测序数据的sSNVs,摆脱了对黄金训练集的依赖,在合适的情况下,大家不妨考虑借鉴一下这种方法,而不是简单粗暴的忽视掉所有的同义突变~好了,今天到这了,have a nice day!
参考文献:
1、Zeng Z, Aptekmann AA, Bromberg Y. Decoding the effects of synonymous variants. Nucleic Acids Res. 2021 Dec 16;49(22):12673-12691. doi: 10.1093/nar/gkab1159. PMID: 34850938; PMCID: PMC8682775.
2、Buske OJ, Manickaraj A, Mital S, Ray PN, Brudno M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 2013 Aug 1;29(15):1843-50. doi: 10.1093/bioinformatics/btt308. Epub 2013 Jun 4. Erratum in: Bioinformatics. 2015 Mar 1;31(5):799. PMID: 23736532.
3、Zeng Z, Bromberg Y. Predicting Functional Effects of Synonymous Variants: A Systematic Review and Perspectives. Front Genet. 2019 Oct 7;10:914. doi: 10.3389/fgene.2019.00914. PMID: 31649718; PMCID: PMC6791167.