对于我们搞科研的人来说,文章要想发高分,要么精,要么新,要么工作量相当大,凭着辛苦发个差不多的综述。在生信行业发展日益成熟,甚至于开始内卷的当下,相信大家都有一个同感,那就是现在的文章不如以前那么好发了!这种情况下呢,就需要我们适时的转换一下思路,不要总是将自己的思维局限某一领域里,总有一些被大家忽视的犄角旮旯可以让我们找点东西做做文章的嘛!之前非编码RNA的火热就告诉我们一个道理:存在即合理,能被自然选择留下的东西一定是有他的作用。这不,小编最近就看到了一篇发表在Nature Biotechnology(IF=54.908)杂志上的文章,作者着眼于人类基因组中的非特异区域,系统地总结了基因组在该区域的突变事件。小编特意去检索了一下,发现相关的文章真的是少之甚少,有新意,有方法,难怪这篇基本纯生信的文章能发到这个水平的杂志上。话不多说,正餐开始!
咳咳,先容我简单介绍一下研究背景,目前高通量测序普遍使用的是短读长技术,但是基因组结构在进化中会发生重复和重排,使用这种短读的测序技术时,就会导致基因组约10%的区域是非特异的,即有些序列不只存在于染色体的一处位置,这就使得突变检测有了盲点,所以我们所熟知的PCAWG(全基因组泛癌分析)等研究都是基于基因组特异区域的,而非特异区域包含着参与人类疾病和发育过程的基因和调控元件,以及在癌症中经常发生突变的剪接因子和核RNAs。因此,该研究利用PCAWG数据集,利用同义词库方法对基因组上非特异区域进行突变注释,补充了体细胞单碱基替换图谱。
结果一、利用同义词库注释识别体细胞突变
作者通过构建机器学习模型,对PCAWG数据集中的样本重新call体细胞突变,然后进行同义词库注释,将在基因组中位置唯一的定义为”local”,能够链接到可替代位置的定义为” thesaurus” (下文统称为特异突变和同义词库突变)。同PCAWG本来的突变数据相比,作者注释得到的特异区域突变集的假阳性和假阴性率均不到10%,这跟数据集内部的一致性相关;而同义词库突变集与PCAWG已有的突变几乎没有交叠(.b),表明这些位点之前可能被”隐藏”了。接下来,作者发现了特异突变集和同义词库突变集总突变负荷、等位频率的高度相关性(.c),最后,研究又使用一个单独的癌症样本进行了验证,特异突变和同义词突变的等位频率验证率分别超过了90%和80%,一定程度上证实了其可靠性。
结果二、同义词库突变和特异突变的相关性
该研究以三核苷酸为背景,对突变进行分层,发现在大多数样本中,特异突变谱和同义词库突变谱是显著相关的(.a),而关联强度主要受突变负荷的影响(.b)。通过对比特异突变谱和同义词库突变谱的UMAP以及特定簇的突变模式,可以发现它们在不同癌性和分子突变过程中都具有相似性(.c-d)。
结果三、同义词库突变影响上千种功能原件
作者通过基因注释对基因组区域进行了定义,发现同义词库突变与1,744个编码基因相关。然后,该研究以区域长度为协变量,对编码区基因的群体频率进行分位数回归模型拟合,发现三种模式下的趋势是一致的(.b)。最后,作者综合泛癌z scores和基于熵的特异性度量,对编码序列、启动子等区域进行可视化(.d-e),总的来看,大多基因都不是反复突变的,而且也不特异存在于某一癌型,基因TP53和KRAS的编码区分别是泛癌复发和特异突变的高发区,而且只含有特异突变。但是,分值比较高的同义词基因中也包含了一些癌基因,如PIK3CA在乳腺癌中富集同义词库突变,此外, IGLC、IGHG、IGHJ和IGHM 家族的免疫球蛋白元件在启动子序列分析中具有较高的复发率和特异性(.e)。
结果四、复发突变影响的基因家族
基于以上可视化分析的结果,作者将所有同义词库基因和COSMIC中的癌症基因进行交叠,发现了35个癌症基因编码区、以及29个癌症基因的非翻译区和启动子区的同义词突变(.a)。其中,NUTM2A, NUTM2B, SSX2和SSX4这四个基因只携带同义词库突变 (眼尖的小编发现图中SSX2这个基因对应的颜色标错了~),这与它们因为易位和融合突变,而非碱基替换而被数据库记录所一致,这种情况下同义词替换就为突变事件进行了补充。然后,我们来看.b,这里作者可视化了单个基因序列上的所有突变,以PIK3CA和KMT2C为例,同PCAWG数据库的突变集相比,他们发现了更多的特异突变,而同义词库突变填补了特异突变之间的空白。
除了已知的癌症基因,作者发现一些富集同义词库突变的基因,也包含有特异突变,如突变负荷较高的ANKRD30A和TPTE,都与癌症相关通路互作;TRIM64B和TRIM49所在的蛋白家族参与先天免疫、自噬和癌变等过程。研究还发现,在同一蛋白家族中,受单个基因影响的样本基本上是不重叠的(.f)。在启动子区富集突变的基因中,包括一些免疫球蛋白家族成员(.g),在所有免疫球蛋白基因片段上游的序列中,同义词库突变占所有变异的19.7%,以C > T替换为主(.h)。
好了,正文到此结束。最后,正如作者自己说的那样,他们只分析了体细胞替换事件,像InDel,CNV等突变类型,随着注释的完善,也是很有研究价值的。
小编个人感觉,同其他高分文章相比,这篇的回报/投入比已经算是高的了,有好的创新思路就要大胆的去尝试,而不要一味的跟随热点,毕竟伟大的爱因斯坦曾经说过——在科学上,每一条路都应该走一走,发现一条走不通的路,就是对科学的一大贡献(是真的说过,不是小编在瞎扯哈~)。多多思考,勇于尝试,我们也是有可能于沧海中拾遗的,就算结果不好,那也是为科学做了贡献呢,是吧! Have a nice day!