CHESSBOARD-基于RNA剪切的癌症亚型判别算法

admin 22 2025-01-23 编辑

 

癌症亚型的鉴定是开发个性化治疗的关键步骤。而经由RNA剪切,可以区分不同癌症亚型,Nature Communication的新论文“A Bayesian model for unsupervised detection of RNA splicing based subtypes in cancers”提出了的无监督亚型判别算法CHESSBOARD,可基于RNA数据中的可变剪切信息进行癌症亚型鉴定。使用该方法对几个白血病数据集进行分析,发现其得出的亚型分类是可重复的,调查了相关的驱动调节因素及已知白血病相关突变的关系,可论证得出分型的生物学意义。CHESSBOARD 的潜在临床应用包括,补充基于突变的诊断分析和发现新的剪接图谱,以改善药物反应的相关性研究。

论文地址:https://www.nature.com/articles/s41467-022-35369-0

Chessboard算法概述

Chessboard的输入,是从患者RNA测序中得到的从患者支持各个基因可变剪接的read条数(a),称其为局部剪切变异(LSV)。汇总多个样本的结果,记录每个样本中支持跨越外显子的read的条数,得到可变剪切矩阵。Chessboard算法,会根据可变剪切矩阵,进行聚类,以识别出样本中的不同的亚型(b)。算法分为三步,第一步过滤,过滤掉太少的样本中观察到的低表达基因,只保留那些在样本间普遍出现且存在显著差异大基因(c),之后的MCMC(马尔科夫链蒙特卡洛)通过对输入数据矩阵的进行阻塞吉布斯采样,以迭代的方式使亚型判断方法具有更高的可行性的可变剪切基因(d),之后对分型结果计算边缘后验分布并进行可视化(e)。

CHESSBOARD 的流程图

2)Chessboard在癌症亚型区分上的应用

为验证Chessboard的性能,在 beatAML12数据集上测试Chessboard。该数据集包含了急性髓系白血病患者的RNA测序数据,样本量 477,局部剪切变异基因 2299个。该算法检测到一个由217个样本和1910个 LSVs 组成的聚簇(a)在另一个白血病数据集Penn HTSC使用Chessboard,可得出相似的结果(b)。此外,属于两组数据集中,每个组的LSV中位数高度相关(c),说明该方法找到的亚型在不同批次的数据间是稳定的。

BeatAML上使用Chessboard的分析结果

之后验证分型是否具有生物学意义,通过比较chessboard分出的亚型的可变剪切,是否随亚型的不同,具有不同的RNA结合蛋白调节(RPB)模式。与在 ENCODE 的 RBP 敲除实验中观察到的差异剪接中,有17个和chessboard区分出的亚型有关,所有17个RBP之间,都区分度亚型间都存在显著差异(d),且其中差异最明显的两种结合蛋白调节基因SRSF1和 U2AF2,已知在癌组织的抗凋亡中发挥功能, 由此指出该算法的分型结果具有生物学意义。e是对chessboard识别的LSV,按照用 GSEA v. 4.1.0进行的功能注释,得到的富集基因情况。

3)Chessboard可在新增数据模式下运行

当新数据加入后,可能会产生新的癌症亚型,这就需要亚型算法能够以增量模式运行,通过迭代的方式不断更新分型结果。Chessboard支持进行递归聚类,将前一部分的聚类结果作为已知情况处理。a展示了对beatAML 进行递增式计算的结果,最初的结果是所有样本都为未区分(白色),之后是随着算法的迭代,未分类样本所占比例降低,直到所有样本被分为不同亚型。a还展示了不同亚型的患者中 FLT3-ITD (p < 0.001) ,NPM1(p < 0.001)和 CEBPA (p = 0.025)三个可变剪切情况差异显著的基因,其中突变富集情况经过置换测试显著对应 p 值。这3个基因的突变已知和AML分型相关,这意味着该方法用于分型的基因具有生物学意义。b展示了递归深度对分型的影响,表明该样本只包含2个分型,进一步的递归不会产生新的分型。

,使用递归模式在beatAML数据集上测试Chessboard

4)Chessboard的临床应用,预测药物反应

只针对70个与AML用药相关的基因上的可变剪切,使用chessboard分型,可得到和上文分析(a)类似的结果(a)。这意味着无监督方法chessboard基于可变剪切信号,在不直接捕获的突变时,隐含地捕捉了这些基因的生物学意义。通过b中展示的那些基因只在一种亚型中出现,说明了模型具有可解释性,即说明了那些基因上的可变剪切更为重要。c展示了该算法可以根据分出的亚型,判定是否可对患者用Sorafenib 治疗的决策树。d展示了不同分组患者对Sorafenib的效应率的AUC,不同组之间差异显著,c的决策树可解释36.8%的差异。其中表现出良好药物反应的组(FLT3-ITD + 和背景)富集异常剪接(55/66例患者) ,而反应差的组(FLT3-ITD-和信号)富集正常剪接(152/169)。 e具体展示了两个亚型中的可变剪切事件发生在那个外显子上,之后的散点图展示了可变剪切与基因表达率之间的关系。以上分析说明,可基于chessboard预测癌症患者的药物效应,从而指导个性化用药。

chessboard预测临床反应的结果

5)CHESSBOARD对复杂亚型的区分

之前研究发现在儿童和成人的急性白血病(AML)中,存在很多遗传差异。将 CHESSBOARD 应用于由 TARGET 儿科 AML 和 beatAML 样本组成的联合数据集,分出了五个亚型(),其中C1,C2和 C4代表儿童 AML,C3和 C5代表成人 AML 。一部分可变剪切事件( LSVs) 分别对成人(绿色)和儿童(蓝色) AML 是独特的。其他 LSVs 或者在每种疾病类型的亚型之间共享(黄色) ,或者仅对一种疾病的单一亚型(紫色)独有。许多这些剪接变异发生在基因,通常儿童和成人疾病类型对应的差异突变基因。

将 CHESSBOARD 应用于 TARGET b-ALL (B 细胞急性淋巴性白血病)数据(样本 = 517,LSVs = 1562) ,这是一种明显与AML不同类型的白血病。与 beatAML 数据集的结果相比,该算法识别出了五个具有明显更复杂的聚簇。值得注意的是,一个确定的亚组富集的患者,其中RUNX1-ETV6融合阴性者有高复发率,该突变经常被用作一个积极的预后标志。这表明与该突变有关的剪切标记也可被视作是临床指导指标。

CHESSBOARD 在AML 和b-ALL上的亚型区分

总结

CHESSBOARD是第一个用于异质 RNA-seq 数据中,基于 RNA 剪接进行聚类的定制算法。通过在白血病患者RNA seq数据的应用,展示了其可用于药物反应预测,患者预后分类。该算法分型依据的基因,对应已知的相关通路,具有生物学意义。将 CHESSBOARD 应用于大型异构癌症数据集中的许多其他分析任务,进一步推动多组学数据的相互印证,增加对可变剪接在复杂疾病中所发挥的作用的理解。

CHESSBOARD-基于RNA剪切的癌症亚型判别算法

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 肿瘤研究不能不知道的TCGA数据库挖掘工具大全,TCGA再也不愁
相关文章