一、背景
癌症是一系列疾病,其主要特征是由基因突变引起的异常和不受控制的细胞生长。这些突变被称为“驱动因子”,因为它们具有驱动肿瘤发生的能力,使组织中的细胞相对于邻近细胞具有某些选择性优势。它们发生在一组基因中【癌症驱动基因】,这些基因的突变形式会影响一系列关键功能平衡发展。
自遗传学建立以来,癌症研究的主要目标之一就是发现这些跨肿瘤类型的癌症驱动基因。它们的识别导致了发展靶向抗癌疗法的范式,该方向的最终目标是基于丰富的肿瘤突变数据集和成熟的突变驱动识别方法,揭示所有肿瘤类型的驱动基因,并提供其致瘤机制的线索。
研究人员开发了IntOGen——Integrative OncoGenomics,旨在系统地识别肿瘤类型的突变驱动基因。目前IntOGen数据库整合了来自66种不同肿瘤类型的221个队列中的28,076个肿瘤的癌症驱动基因,还提供了最新的识别癌症驱动基因的流程。

二、简介
来自肿瘤样本的体细胞突变数据集呈指数级增长,需要分析方法来全面了解肿瘤类型的突变、基因和通路。 有几个癌症基因组学门户网站,其数据来自重测序的癌症基因组,但没有一个平台能够系统地分析不同测序项目的数据。 IntOGen-mutation平台可以识别不同肿瘤类型的癌症驱动因子,并展示当前可用的肿瘤体细胞突变大数据集的系统分析结果。截止至2020年,IntOGen平台整合七种不同的方法以识别不同肿瘤类型和不同测序平台下的癌症驱动基因,包括大家熟知的OncodriveFM和OncodriveCLUST。
IntOGen数据库最早发表在2010年,收集不同数据平台下受表达和拷贝数变化影响的基因和通路。2013年数据库进行更新,收集了13个癌症位点的4623个肿瘤基因组/外显子中涉及肿瘤发生的突变、基因和通路。而后,该数据持续更新,逐渐包含与治疗、临床分期、FDA批准或临床试验的与药物有效性相关的特定基因组改变等信息。
目前,该数据库收集了221个队列的66种不同癌症类型,总共28,076个样本的体细胞SNV和短indels。大多数样本来自大规模的测序工作,如ICGC、TCGA、PCAWG、TARGET。重要的是,通过cBioPortal和PedcBioPortal分别获得了其他60个队列的基因突变。这突出了开发和维护集中精力收集小项目中的测序数据的重要性。最后,从最初的研究中获得了8个独立队列中测序的2257个肿瘤的突变。221个队列中,大多数是原发肿瘤(180个),而其余41个是转移或复发样本(共4713个)。
使用CGC中的一组驱动基因作为66种恶性肿瘤发展相关基因的“金标准”。虽然CGC是不完整的,可能包含一些假阳性,但据知,它是从文献中注释的最全面和最准确的一组验证过的癌症基因。在整合的568个突变驱动基因中,几乎有四分之三已经在CGC中进行了注释(这也为该整合提供了一个强有力的验证)。
三、识别diver基因和通路的pipeline
使用这些肿瘤突变数据集识别癌症驱动基因需要一个高效的计算系统,我们称之为IntOGen管道。IntOGen管道由三个基本步骤组成。个:预处理确保每个方法以正确的格式和操作参数接收其输入,例如,去重从相同肿瘤中提取的样本,或去除那些具有非同义突变与同义突变或超突变表型的异常比例的样本。第二步:使用最近公布的7个方法识别驱动基因 - dNdScv、 OncodriveFML、CBaSE、OncodriveCLUSTL、HotMAPS、smRegions和Mutpanning ;第三步:通过加权投票将每种方法确定的候选驱动基因列表组合在一起,每种方法的权重基于其感知的可信度。这种组合产生了每个队列的驱动基因列表,这些驱动基因比单个方法产生的驱动基因更敏感,但不丧失特异性。在最后的后处理步骤中,可能由于已知的混杂因素而出现的伪候选驱动基因被自动过滤掉。
2020年,IntOGen pipeline进行了更新,除了OncodriveFM 和OncodriveCLUST方法外,还额外增加了5种方法。并用OncodriveFML替换了以往的OncodriveFM,OncodriveFML方法可以识别非编码癌症驱动基因。而新添的如dNdScv、CBaSE等方法,它们分别基于不同的原理识别癌症驱动基因——频率、功能、结构。
IntOGen识别癌症驱动基因基本流程(参考最新):
获取体细胞突变列表过滤和质量控制:评估在肿瘤样本队列中检测到的体细胞突变的潜在功能影响使用Ensembl variant effect predictor 工具评估突变后果:错义突变、同义突变等使用三种变异有害性预测软件:SIFT, PolyPhen2 and MutationAssessor计算非同义突变的功能影响得分。目前已有多种软件可对变异有害性进行评估;IntOGen所用的三种软件就是常见的有害性预测软件之一。 预测原理:依靠突变是否会破坏蛋白质的结构和功能;基于序列保守性(越是重要的序列越具有遗传稳定性);基于特定算法对已知突变信息进行机器学习;使用transFIC将功能影响得分转化为transFICMutation Assessor score;以校正germline突变的影响。基于transFICMutation Assessor score和突变类型,将突变分为四组。使用7种方法分别计算候选癌症驱动基因dNdScvCBaSEOncodriveCLUSTLHotMAPS3DsmRegionsOncodriveFMLMutpanning量化每种方法的可信度,该管道将通过任一方法计算的P值整合成一个p值,代表一个位点或所有肿瘤中基因的FM偏差或CLUST偏差。每种方法对每个队列独立工作:为了为每个队列创建一个driver基因列表,首先确定每个方法在应用于这个特定队列时的可信度——根据宇宙癌症基因普查数据库(CGC)中报告的真实癌症基因数量,根据该方法对其进行排序。一旦量化了每种方法的可信度,使用加权方法来组合每种方法,为每个候选基因产生的p值。
四、使用方法
IntOGen数据库首页给出了所有癌症的扇形图,当研究者需要某一癌症的驱动基因时,可以在首页选择所需要的癌症,IntOGen会返回该癌症驱动基因相关的信息。包括所涉及的数据集,计算得到的癌症驱动基因(可以下载多种形式:词云图、条形图和表格)。
词云图代表了PRAD中最常反复突变的癌症驱动基因。基因的大小与该基因突变样本的数量有关。
Ref:
IntOGen-mutations identifies cancer drivers across tumor types. Nature Methods 2013
A compendium of mutational cancer driver genes Nature Cancer reviews 2020
Comprehensive characterization of cancer driver genes and mutations. Cell 2018