如何多组学预后分类模型-前列腺癌药物模型案例讲解

admin 20 2025-01-27 编辑

如何多组学预后分类模型-前列腺癌药物模型案例讲解

对于造成每年35万人死亡的前列腺癌,雄激素受体信号抑制剂是一种常见的治疗药物。然而患者对于该药物响应存在差异。近日Nature communication的研究,整合了全基因组与全转录组的信息,构建了预后模型,其中的多组学研究,值得借鉴学习。

论文标题:Predicting response to enzalutamide and abiraterone in metastatic prostate cancer using whole-omics machine learning

论文地址:https://doi.org/10.1038/s41467-023-37647-x

1)研究的方法学设计

在实验设计阶段,该研究选取的患者,包含了肿瘤样本活检,对药物响应,按照使用时间,分为3类,而在之后的训练过程中,只用响应好与响应差两组,忽视了响应不明确的组,这样减少了模型训练的难度。同时,响应好与坏两类的样本数是相对均匀的,这同样对项目的成功有帮助。

,样本选择流程图

在之后的模型验证中,作者将数据集分为了用于训练的CPCT-02和用于验证的WCDT。之后分别使用全基因组测序WGS和全转录本测序WTS数据构建预测模型,如所示。在模型训练阶段,只依靠来自基因组的特征与临床信息,训练逻辑回归模型,使用留一法交叉验证,绘制ROC曲线。之后加入全转录组的数据,对表达量使用edgeR中的包中的TMM方法进行归一化,之后使用ICA,PCA及稀疏PCA对数据降维,之后构建只使用转录组SVM的分类模型。

,模型构建与验证的流程图

对于全基因组WGS数据,通过肿瘤/正常配对的全基因组测序,获得包括肿瘤突变负荷(TMB),新发结构变异SV个数,及删除类型的SV个数,新发串联重复数,作为来自基因组的模型特征,这里选取每个样本的结构变异个数,而不是具体的变异位置。相当于进行了特征工程,即将模型的输入通过筛选及组合,以减少特征个数,达到减少机器学习模型的训练难度的目的。之所以选择这些特征,是由于经过统计分析,发现肿瘤突变负荷TMB(q < 0.001),结构变异(q < 0.05)、串联重复(q < 0.05)和缺失(q < 0.05)在不良响应者中富集(具体情况见)。该图展示了每个患者的治疗时间,患者的TMB,肿瘤纯度及不同类型结构变异的比例。从该研究中,可以学习的是在构建预测模型之前,应该先通过统计检验,找出存在显著差异的特征。这样做可以减少模型的输入维度,减少数据中噪音对模型的影响。

基因组特征与患者临床表型间的关联

在整合WGS与WTS的模型之前,观察发现只基于WGS与只基于WTS的模型,在预测的真阳性(真良好反应者,n = 18)和预测的真阴性(真正的不良响应者,n=17)之间存在重合。只基于WGS的模型比只基于WTS的模型产生对良好响应者的分类更好(79% vs. 58%的敏感性),而只基于WTS的模型对不良响应者的分类更好(83% vs 49%的特异性)。模型间预测重合的样本较小,说明可以通过整合预测模型提高准确性。

为了研究如何同时利用WTS和WGS特性会提高性能,作者使用两种集成方法(分别为堆叠分类器与将分类结果平均)结合了性能最好的WGS-only和WTS-only分类模型。堆叠分类器得到的AUC为0.76(71%的特异性/ 71%的敏感性),而集成平均得到的AUC为0.81(73%的特异性/ 68%的敏感性),见。将WGS与临床变量相结合,与只基于WGS的模型相比,具有最高的性能提高,这意味着变量间存在着协同效应。

,不同模型集成方法的AUC对比

2)预测模型在验证数据集上的表现。

模型训练完之后,在验证数据集上的测试的结果如所示,最上面代表不同类型的预测结果,之后分别是TMB,结构变异数等基因组特征,每个子图中的虚线代表了模型用以判别的阈值,左图的生存曲线对比,展示了预测为良好响应与不良响应的患者之间存在显著差异。

只基于WGS数据,预测模型在验证数据集上的表现

最终的联合模型,包括WTS和WGS,以及用药前是否服用ARSI,其AUC为0.84,特异性为73%,敏感性为74%().

,在训练数据集上使用不同特征模型的性能评估

在完成了WGS加WTS无偏测序找到生物标记物后,作者探讨了如何降低成本,以使检测更为实用。对比了使用基因组的数据,与只使用外显子区域的数据构建的模型,发现只是有外显子测序数据构建的预测模型,也具有较好的分辨能力(见a)。6对比了基于WES数据的模型在训练集上的AUC,可以发现表现并不好;而c则为只基于WES数据的模型,在外部验证数据集上的生存率对比,可见其存在显著差异。这意味着临床基因组学模型的仅外显子组近似显示了良好的结果。

只基于WTS数据,预测模型在验证数据集上的表现

此外,如果测序足够深,液体活检检测cfDNA,也可以靠地获得肿瘤突变负荷和结构变异负荷,从而利用基于基因组学的模型,这提供了侵入性较小的药物响应效果评价的可能性的可能性。

总结

该研究是首个基于大样本量的前列腺癌药物反应的研究,作者构建的预测模型不仅可以用来对 ARSI 预测反应差的患者进行分层,以便进行替代治疗,还可以用来识别那些最需要额外治疗的患者。作为回应,临床试验可以集中在对标准治疗方案(如 ARSI)反应不佳或适度的患者亚组,并且这些患者将从其他治疗方案的开发中获益最多。

与传统的统计模型相比,基于 机器学习的分类模型可以从大量特征中确定最具预测性的生物标志物组合,并预测未来个体患者的反应。机器学习技术,如降维,独立元素分析。这些技术能够选择预测特征,同时防止过度拟合,并对全基因组及全转录组等高维数据进行无偏分析。尽管整体组学测序目前尚不适用于所有患者,但由于成本降低和靶向治疗数量增加,预计 WGS 在不久的将来将比靶向小组测序更具成本效益。这意味着未来可以展开更多类似的多组学预后模型研究。

如何多组学预后分类模型-前列腺癌药物模型案例讲解

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: SXR202307013C _jing_10+细胞因子预测免疫治疗结局思路介绍
相关文章