38+文章教你分类模型怎么锦上添花

admin 17 2025-01-26 编辑

很多研究都聚焦于开发疾病分类预测模型,除了对模型进行效能评估外,还可以从哪些角度为模型加分,提高工作质量呢?今天小编给大家分享一篇2022年12月发表在Cancer Cell(IF:38.585)杂志上使用多组学数据进行乳腺导管原位癌分型的文章,相信小伙伴们看完应该能找到一些答案。文章开发了一个预测DCIS复发的分类器,并对复发相关的通路、表达模式及免疫细胞组成进行了全面分析。文章内容丰富,逻辑清晰,感兴趣的小伙伴们不要错过呀!

Molecular classification and biomarkers of clinical outcome in breast ductal carcinoma in situ: Analysis of TBCRC 038 and RAHBT cohorts

基于TBCRC038和RAHBT队列分析乳腺导管原位癌的分子分类和临床结局生物标志物

 

一.研究背景

癌前病变是侵袭性疾病的前体,研究癌前病变对探索癌症发展的分子过程和进化动力至关重要。研究发现导管原位癌(DCIS)是浸润性乳腺癌(IBC)中最普遍的早期病变,具有不同的进展倾向。此外,DCIS也由不同的病变组成,具有很强的异质性及较高的进展风险。因此研究DCIS可能的进展,能够减少妇女不必要的治疗。

 

二.文章摘要

研究对来自转化乳腺癌研究联盟038研究(Translational Breast Cancer Research Consortium;TBCRC 038)和档案乳腺组织资源(Resource of Archival Breast Tissue; RAHBT)队列的542位患者的774例DCIS样本的多组学数据进行了分析。结果研究识别了812个与治疗后5年内同侧复发相关的基因,并基于这些基因开发了一个预测DCIS复发的分类器。此外,研究也对复发相关的通路、表达模式及免疫细胞组成等进行了分析。

 

三.研究的主要内容及结果

1. 研究的主要流程及队列

文章首先对研究的主要流程及队列进行了介绍。研究纳入了RAHBT及TBCRC两个回顾性队列,队列中包括对照组及病例组,而病例组中的患者最初被诊断为DCIS,有的后续发生了同侧乳腺病变(iBE, 包括DCIS 或 IBC),有的未复发。RAHBT队列有97例患者用于结果分析,而TBCRC队列则包括216例患者,表1对RAHBT和TBCRC队列进行了概括。则展示了本研究的队列和主要的分析流程。

 

2. 预测早期复发的预后分类器

这一部分研究对构建的预测早期复发的分类器进行了介绍。作者首先识别了TBCRC队列中复发与非复发样本的差异表达基因,来识别与临床结局相关的基因(A)。接着研究使用这些差异基因在TBCRC中训练了一个随机森林分类器,并在RAHBT队列中对分类器进行了验证(B)。研究观察到分类器能够显著预测两个队列中的iBE(C)。此外,研究也发现在整个随访时间内,该分类器也是iBE的显著预测因素(D和2E)。接下来,作者使用多因素分析发现在两个队列中该分类器都具有显著的预后价值(F和2G)。接着为了进一步分析样本通路的激活状态,研究进行了基因集变异分析(GSVA),结果发现MYC和mTORc1信号在病例组中增加,并具有强相关性(A-3C)。

 

3. DCIS RNA聚类识别驱动临床结局的模块

在这一部分研究对驱动临床结局的模块进行了识别。研究使用非负矩阵分解(NMF)对两个队列进行聚类识别了三个亚群。研究发现在这两个队列中亚群1与亚群2和3相比,ERBB2表达显著升高,而ESR1表达显著降低(A和4B)。研究将这三个亚群分别命名为ERlow、quiescent和ERhigh。接下来为了进一步对这些亚群进行刻画,作者进行了差异分析,将每个亚群与其他两个亚群进行比较,结果观察到ERhigh组和ERlow组间雌激素反应存在差异(C)。接下来作者对患者的MIBI蛋白表达进行了分析,结果发现quiescent亚群和ERhigh亚群中ER+肿瘤细胞的频率明显高于ERlow亚群,而HER2+肿瘤细胞在ERlow亚群中显著升高(D)。此外,研究也观察到quiescent亚群与ERhigh和ERlow相比具有较低的增殖能力和代谢活性(D和4E),且ERhigh组的肌上皮钙粘蛋白明显高于ERlow和quiescent组(F)。

 

4. DCIS中复发的IBC具有高危特征的扩增

接下来作者对参与DCIS复发的拷贝数变异(CNA)进行了分析。研究首先在两个队列中识别了29个与复发相关的CNAs(A)。接下来,研究分析了基因组拷贝数改变比例(PGA)在5年临床结局组或分类器风险组中的分布是否有偏倚,结果没有发现显著的差异(B-5C)。研究也在TBCRC和RAHBT队列使用基于CNA的无监督NMF聚类,识别了8个亚群(D),其中CNA亚群1具有chr20q13.2扩增的特征(E)。接着研究对这8个CNA亚群的富集通路进行了分析,结果发现亚群6和7富集到了多个复发相关的通路,而亚群8 则相反(F)。

 

5. DCIS具有不同的免疫和成纤维细胞状态

在文章的最后一部分研究对肿瘤微环境的表型进行了刻画。研究使用RNA数据进行了聚类识别了4个DCIS基质亚群(A),并筛选了差异基因(B)。此外,研究也进行了通路分析(C),同时研究了MIBI蛋白表达和细胞类型分布(D)情况,并进一步刻画了亚群中细胞的分布情况(E)。结果研究发现成纤维细胞状态和免疫细胞密度具有强相关性,其中CD4+ T细胞、髓系细胞和浆细胞样树突状细胞(pDC)、单核细胞、巨噬细胞的水平与对照组相比显著升高(G)。

 

到这里这篇文章的主要内容就介绍完了。文章聚焦于乳腺导管原位癌,构建了一个预测其复发的分类器,并结合多组学数据对乳腺导管原位癌复发的分子特征及临床结局进行了详细刻画。文章的核心是构建分类器,并从功能及免疫等多个角度对结果进行全面深入的解析,这种写文章的角度十分值得小伙伴们参考学习。

 

38+文章教你分类模型怎么锦上添花

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 贝叶斯算法预测乳腺癌疗效
相关文章