机器学习预测癌症淋巴结转移状态

admin 24 2025-01-23 编辑

大家好呀!今天给大家介绍一篇2021年2月发表在fronters in Cell and Developmental Biology上的文章。淋巴结转移是侵袭性癌症患者肿瘤复发和生存的重要预测因子,淋巴结转移患者会出现不可控的疾病进展和较短的生存期。随着高通量技术的发展,已有大量的表达数据包括mRNA和ncRNA可以用于预测肿瘤起源和癌症亚型。本研究作者基于不同特征构建SVM分类器,可以用于预测一系列癌症的淋巴结转移状态。

Prediction of Lymph-Node Metastasis in Cancers Using Differentially Expressed mRNA and Non-coding RNA Signatures

使用差异表达mRNA和非编码RNA特征预测癌症的淋巴结转移

摘要:

准确预测癌症的淋巴结转移对于下一步的临床治疗十分重要,有益于患者的预后。mRNA和非编码RNA广泛应用于构建预测癌症起源和亚型的分类器。然而,使用这些特征研究癌症的淋巴结转移很少,基于不同特征的分类器性能也没有进行比较。本研究通过鉴定淋巴结转移和未转移的差异表达mRNA,miRNA和lncRNA作为特征,构建预测不同癌症淋巴结转移的分类器。系统的比较了不同特征的SVM分类器的性能。本研究共采用了9种癌症数据,mRNA,miRNA和lncRNA分类器的精确度为81%,81.97%和80.78%。本研究提出的特征选择策略是经济有效的,可以准确的识别生物标志物,构建健壮的分类器预测肿瘤淋巴结转移。此外,作者开发了一个界面友好的网站可以帮助研究人员预测癌症的转移风险。

流程图:

材料与方法:

1.癌症筛选和数据收集:首先,作者使用TCGA数据库中临床TNM分期数据筛选患者中存在明确淋巴结转移状态的肿瘤。其中,N-index和T-index为1-4,M-index为0的患者为淋巴结转移患者,而N-index和M-index为0,T-index为1-4的患者为非淋巴结转移患者。共有9种癌症类型存在清晰的淋巴结转移分类信息。对于这些癌症类型,作者收集了2491个mRNA,2364个miRNA和2491个lncRNA,包括正常样本,淋巴结转移样本和非转移样本。

2.数据预处理:对于每类癌症的数据集,使用R包impute处理缺失值。

3.特征选择:对于这9类癌症数据,作者进行了3轮特征选择。第一,筛选淋巴结转移和非转移样本中差异表达的mRNA,miRNA和lncRNA。第二,筛选正常样本和癌症样本中差异表达的mRNA,miRNA和lncRNA。第三,进行PCA分析。

4.分类器构建和网站开发:将筛选到的mRNA,miRNA和lncRNA作为预测癌症淋巴结转移的生物标志物。本研究使用SVM算法构建分类模型,其性能较好。作者的特征选择策略可以保证获得较小的特征集且预测性能较好。将SVM的分类结果与KNN和RF进行比较。对于淋巴结转移样本和非转移样本的不平衡问题,作者采用下采样的策略来获得平衡数据集。所有的模型进行5折交叉验证来提高预测性能。作者开发LNMpredictor网站,可以使研究人员进行淋巴结转移预测。

结果:

1.癌症和样本统计

本研究作者重点关注有明确淋巴结转移状态和样本数量足够的癌症类型,基于SVM构建不同癌症类型的分类器。本研究共选定9种癌症类群,其中70%为腺癌和鳞状细胞癌,20%为尿路上皮癌,包括乳腺,肺,肾,结肠,膀胱,宫颈,胰腺和直肠等8种器官或组织类型。其中肺源性腺癌和鳞状细胞癌的淋巴结转移风险较大。为构建分类器,作者选择了2491个mRNA样本,2364个miRNA样本和2491个lncRNA样本(表1)。

2.特征选择

鉴定可以准确预测淋巴结转移状态的特征是构建有效分类器的关键步骤。为实现这一目标,作者使用淋巴结转移和非淋巴结转移之间的差异表达mRNA和ncRNC作为生物标志物,用来区分患者有无淋巴结转移。对于miRNA来说,仅鉴定差异表达miRNA已经筛选到了大小合适的特征集(3-27个特征)。而对于mRNA和lncRNA来说,仅鉴定差异表达mRNA和lncRNA筛选到的特征集较大,平均为591和276个特征。因此,作者随后进行了PCA特征选择,这一步后筛选到mRNA和lncRNA的特征集大小平均为6和4(表2)。随后,作者对miRNA的特征集构建了聚类热图可视化miRNA癌症样本的表达水平()。

3.分类性能评估

分类器的性能主要取决于提取特征的质量和数量。本研究中,作者选择肿瘤淋巴结转移中差异表达mRNA,miRNA和lncRNA作为分类器的特征。对于miRNA来说,仅使用差异表达miRNA即可,对于mRNA和lncRNA来说还需要进行PCA分析。作者使用SVM训练分类器并生成模型。本研究作者将每类癌症的淋巴结转移样本和非淋巴结转移样本进行平衡并使用SVM分类算法,并进行5折交叉验证。为综合评价该算法,作者将SVM分类器与KNN和RF分类器的性能进行比较。结果表明,SVM分类器的性能优于KNN和RF分类器,平均提高了2%。表2为9种癌症不同特征的SVM分类器的5折交叉验证训练集和测试集准确率。使用mRNA,miRNA和lncRNA基于SVM分了钱可以正确预测大部分肿瘤的淋巴结转移状态,总体准确率分别为81%,81.97%和80.78%。此外,作者还开发了一个LNMpredictior网站,可以帮助研究人员预测淋巴结转移风险()。

结论:

肿瘤中不确定的淋巴结转移状态是影响患者生存和预后的主要因子,明确的区域转移预测有助于靶向肿瘤治疗和临床管理。机器学习已经广泛应用于癌症预测。本研究,作者使用癌症患者的临床数据和表达数据,将每种癌症分为正常,淋巴结转移和非转移样本。随后,作者提出一种新的特征选择策略以鉴定差异表达mRNA,miRNA和lncRNA作为预测淋巴结转移的生物标志物。随后,使用SVM算法构建每种患者的分类器并与KNN和RF进行比较。结果表明,SVM分类器的性能较好。并且作者开发了一个部署SVM分类器的网站,可以辅助研究人员预测淋巴结转移状态。

参考文献:

Zhang S , Zhang C , Du J , et al. Prediction of Lymph-Node Metastasis in Cancers Using Differentially Expressed mRNA and Non-coding RNA Signatures[J]. Frontiers in Cell and Developmental Biology, 2021, 9:605977.

机器学习预测癌症淋巴结转移状态

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 早期结直肠癌腹膜转移与干性过程相关
相关文章