泛癌TCGA稀有变异

admin 53 2024-12-29 编辑

今天跟大家分享的是十二月份发表在Nature Communications杂志上的一篇文章,是关于癌症基因组中稀有变异Using somatic variant richness to mine signals from rare variants in the cancer genom利用体细胞变异丰度来挖掘癌症基因中稀有变异的信号一、主要内容展示1、预测未来样本中不可见变异的数目研究使用了两个公开的数据集:分别为来自TCGA 的10295个全外显子组测序的体细胞突变数据集,以及9593个肿瘤的靶向序列的体细胞突变数据集 MSK-IMPACT。作者首先刻画了两套数据中的变异情况。TCGA数据集肿瘤类型组成如a所示,其中BRAF V600E、IDH1 132H、PIK3CA E545K、PIK3CA H1047R等4个突变分别出现200次以上(b)。c显示了突变亚群在未来测序队列中可能观察到的新变异的数量。d展示了第二套数据MSK-IMPACT的癌症类型的组成。e可以看出在第二套数据集中KRAS G12D, G12V, 和G12C的情况。 而f展示了这些肿瘤按突变特征划分的亚组的分类,显示了与TCGA数据大致相似的分类。a显示了MSK-IMPACT队列中组织位点检测到的肿瘤平均变异数(蓝色)和肿瘤平均新变异数(橙色)。值得注意的是,对于大多数肿瘤类型,在肿瘤中检测到的60%以上的变异是TCGA队列中未观察到的新变异。b显示了在单个肿瘤样本水平上的“预期”队列中新变量占总变量的比例的分布。

.  TCGA 和 MSK-IMPACT 数据集的变异情况

. 在MSK-IMPACT数据中观察到的变异中有相当大的比例是新的

 2、概率估计揭示特定的组织类型模式在本节中,作者将重点放在TCGA中6696个非超突变肿瘤上,并将注意力转向对单个突变发生在基因中的概率的估计,重点放在罕见的和迄今未观察到的突变上。a显示了作者根据肿瘤位置对KRAS和PIK3CA几个选定的常见变异的概率估计。这些变异的概率可能是高度组织类型特异性的。b显示了根据肿瘤位置在选定的基因中观察到至少一个以前未观察到的新肿瘤变异的相应概率。c可以看出当在PTEN中遇到新的变异时,三个最可能的组织来源是子宫内膜、子宫癌和胶质母细胞瘤。共有210个基因表现出实质的组织特异性,NMI值大于0.01。更普遍的是,在TCGA数据中发现罕见的变异频率分布在不同基因之间存在很大差异。对于TCGA队列中至少3%的癌症基因突变,a显示了相对于单例发生率的百分比,在新肿瘤中观察到至少一个新变体的估计概率。a和b分别显示,在未来队列中观察到新变异的估计概率和预测的新变异总数随基因中单例发生率的百分比的函数而增加。

. 估计基因和组织类型特异性变异的概率

. 与不可见变异相关的估计数和概率的精确性

 3、结果验证为了验证研究的结果,作者使用TCGA数据来获得对MSK-IMPACT数据集中新变异的基因特异性发生率的预测。对于在MSK-IMPACT面板中的每个基因,将基于TCGA数据观察到至少一个未见变异的估计概率与MSKIMPACT数据中观察到的至少一个新变异的肿瘤相对频率进行比较( c,d)。即作者通过比较证明预测的准确性。4、癌症类型的共突变模式在文章的最后一部分,作者首先研究了癌基因的互斥与共出现,估计基因对的频率。a展示了高度依赖谱系的前几个共出现基因对。接着进行了类似的分析,以寻找谱系相关的互斥基因对。接下来根据这些基因对的互斥频率计算出它们的GoodTuring概率估计值,如b所示,证实了一些已知的临床相关的互斥模式,包括RAS和RAF突变。对这些共突变模式进行了详细研究。

. 基因共出现以及互斥突变的估计 二、结论这篇文章到这里就介绍完了,这是一篇泛癌研究,使用了两套数据集,并利用统计学方法最终挖掘与稀有变异相关的有用信息:作者量化了变异与组织的关联,并揭示一种基因特异性、谱系依赖性的新变异的模式。这种变异在很大程度上是由观察到的罕见变异的比例决定的。这表明,发生在非常低频率的变异可能隐藏着重要的与临床结果相关的信号。

欢迎关注

TCGA | 小工具 | 数据库 |组装| 注释 |   基因家族  |  Pvalue

基因预测  |bestorf |  sci | NAR | 在线工具 | 生存分析 | 热图

 生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos

 舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 |  进化 | 测序简史

泛癌TCGA稀有变异

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 究竟是谁传播了SARS
相关文章