好久不见,分外想念!机器学习作为一个让人又爱又恨的领域对大家有着不同寻常的吸引力,爱是因为机器学习可以从大量的数据中挖掘其中蕴含的规律,恨是因为其中涉及到各种复杂的原理让人头痛!今天小编就带大家一起阅读一篇2022年9月22日发表在BRIEFINGS IN BIOINFORMATICS(IF:13.994)的机器学习相关文章吧!看看作者是如何使用机器学习算法挖掘预后和免疫治疗相关特征!
Machine learning-based tumor-infiltrating immune cell-associated lncRNAs for predicting prognosis and immunotherapy response in patients with glioblastoma
基于机器学习的肿瘤浸润免疫细胞相关lncRNAs预测胶质母细胞瘤患者的预后和免疫治疗反应
研究背景
长期以来,lncRNAs与肿瘤免疫调节有关。然而,免疫细胞特异性lncRNAs在胶质母细胞瘤(GBM)中的作用尚不清楚。 本研究采用6种机器学习算法,综合分析纯化的免疫细胞、GBM细胞株和GBM组织的转录组数据,构建了一个新的计算框架,用于筛选肿瘤浸润免疫细胞相关的lncRNAs(TIICLNC)以开发TIICLNC signature。 结果表明,TIICLNC signature可以在四个独立的数据集中区分GBM患者的生存结果,更重要的是,在胶质瘤中显示出优于95个先前建立的signature集的性能。 TIICLNCsignature可作为免疫细胞浸润水平的指标,并可预测免疫治疗的疗效。 在湘雅实验室数据集上验证了TIICLNC signature与CD8、PD-1和PD-L1的正相关关系。 作为一个新发现的预测性生物标志物,TIICLNC signature能更精确地筛选从免疫治疗中受益的GBM人群,并应在不久的将来得到验证和应用。
主要结果
TIIClncRNAs的鉴定
为了全面评价免疫细胞相关的lncRNA,从16个数据集(GSE13906, GSE23371,GSE25320, GSE27291, GSE27838, GSE28490, GSE28698, GSE28726,GSE37750, GSE39889, GSE42058, GSE49910, GSE51540, GSE59237,GSE6863 、GSE8059)中筛选出由19种免疫细胞类型组成的纯化细胞系()。 在每种免疫细胞中的表达水平排名前15%的LncRNAs有546个,这些LncRNAs被认为是候选的免疫相关LncRNAs。 随后,计算候选免疫的lncRNAs的TSI得分,以识别在不同免疫细胞类型中普遍表达的hklncRNAs(在所有免疫细胞中高表达的lncRNAs)。TSI得分较低的lncRNAs在所有19种免疫细胞中均高表达,表明它们在免疫中发挥重要作用。 在设定TSI<0.2的阈值后,鉴定出308个对调节细胞免疫至关重要的HKLncRNAs。 然后,从308个HKLncRNAs中鉴定出152个在免疫细胞系(上调)和GBM细胞系(下调)之间差异表达的HKLncRNAs,并将其视为GBM 的TIICLncRNAs。
构建TIIClnc signature
进一步应用LassoLR、Boruta、XGBoost、SVM、Random Forest和PAMR六种机器学习算法,从152个GBM的TIIClncRNAs中识别出16个最有价值的TIIClncRNAs(A)。 采用单因素Cox回归分析,筛选出对GBM患OS有预后价值的TIIClncRNAs。 在TCGA GBM数据集中识别出12个TIIClncRNAs。 最后,根据TCGA GBM数据集中所有可能的预后TIICLNCRNAs组合的估计回归系数进行加权,构建TIICLNC signature。 基于高斯混合模型(GMM)进行分类,其中有八个聚类4095个组合(B)。 在TCGA GBM数据集中最大的1年AUC由三个TIICLNCRNAs构成(B)。即:
TIICLNC signature=(0.5751*LINC00894表达值)+(1.0609*LOC100506585表达值)+(1.0639*LOC100507156表达值)。
在TCGA 、CGGA、GSE108474以及湘雅队列中,高TIILNC特征评分的GBM患者的预后更差(C、E、G和H)。 TCGA一年生存的AUC为0.727(D)。湘雅队列一年生存 AUC值为0.705(F)。单因素和多因素Cox回归分析证实TIICLNC特征是TCGA GBM数据集中的一个独立危险因素(I)。
TIICLNC signature与已发表signature的预后价值比较
为了检验TIICLNCsignatures的预后性能,作者分析了95个signatures,包括lncRNA和mRNA,并比较了TCGA和湘雅数据集的1年AUC。 这95个特征与多种生物学特征有关,包括免疫浸润、自噬、铁死亡、焦亡、上皮间质转变、缺氧、表观遗传学、N6-甲基腺苷等。TIICLNC signatures比任何其他signatures拥有更好性能()。
TIICLNC signature表现出显著的免疫相关特征
高TIICLNC组表现出较高水平的免疫浸润细胞和免疫调节剂,与胶质瘤亚型、IDH突变和O6-甲基鸟嘌呤-DNA甲基转移酶甲基化无关,表明炎症但相对免疫抑制的微环境,是免疫治疗的潜在受益者(A和B)。还比较了高分组和低分组之间与免疫反应性更强的微环境相关的MSI、TMB、CYT、GEP、TCR、IFN-γ和IPS的状况。结果发现,在高得分组中,这些特征都处于较高水平(C-F)。
预测与TIIClnc signature相关的生物学机制
由于高分组免疫上调,接下来探究高分组的潜在生物学机制。在TCGA和湘雅数据集上,高分组在抗原释放、癌症抗原呈递、引发和激活、免疫细胞募集和浸润、癌细胞识别和癌细胞杀伤等癌症免疫循环中更为活跃(A)。TIIClnc signature与半乳糖代谢和鞘脂代谢等多种代谢通路呈正相关(B)。此外,TIIClnc signature与多种免疫通路出强相关,包括巨噬细胞细胞因子产生、T细胞分化、T细胞活化等(B)。此外,在TCGA和湘雅数据集的免疫图雷达图所示的高评分组中,TME相关特征显著上调(C和D)。GSEA富集分析显示,高TIIClnc signature组富集在巨噬细胞活化、DC趋化、IFN-γ产生和T细胞增殖调节(E)以及MAPK、NF-kappa B、mTOR和PI3K-Akt信号通路(F)。总之,结果显示TIIClnc signature得分高的患者在免疫疗法下免疫应答更强。
在多个数据集中验证TIIClnc signature的预测
由于TIIClnc signature对免疫治疗的预测能力,作者接下来验证了多个免疫治疗数据集的效率,包括 IMvigor(尿路上皮癌)、GSE91061(黑色素瘤)、GSE165252(食管腺癌)、GSE35640(黑色素瘤)、GSE103668(三阴性乳腺癌)、GSE78220(黑色素瘤)和 PRJNA482620(GBM)。如A-H 所示,高分组具有更好的免疫治疗反应和更长的生存时间。从 TIDE 和 submap 生成的列联表也有与上述相同的结果(I和J)。然而,GBM数据集(PRJNA482620)生存分析显示了相反的结果(K)。随后,在湘雅内部数据集中验证了TIIClnc signature的预测价值。如散点图所示,TIIClnc 得分与已知的免疫治疗指标 CD8、PD-1 和 PD-L1 呈显着正相关(图 6L、N和M)。总之,具有高 TIIClnc signature的患者可能会从免疫治疗中获益更多。
总结
文章到这里就结束了!不同于以往的文章,这篇文章结合多种机器学习的方法筛选特征,构建免疫相关的预后模型。机器学习作为当下非常火热的方向,是不是也吸引着很多小伙伴?这篇文章就为我们提供了不错的思路!海量的数据,成熟的机器学习算法都已经具备,下一个10+文章说不定就是你的哦!