大家好!今天给大家介绍一篇2021年发表在Journal of Cancer (IF:4.207)上的文章。作者对食管鳞状细胞癌的GEO和TCGA数据集进行分析鉴定到6个新的预后和诊断生物标志物。
Six Novel Biomarkers for Diagnosis and Prognosis of Esophageal squamous cell carcinoma: validated by scRNA-seq and qPCR
食管鳞状细胞癌预后和诊断的6个新生物标志物:经scRNA-seq和qPCR验证
摘要:
食管鳞状细胞癌(ESCC)是全世界范围内最常见的肿瘤之一。ESCC预后较差且缺乏用于预后和诊断的生物标志物。本研究旨在鉴定ESCC的新型生物标志物。作者从GEO ESCC数据集和TCGA ESCC数据集中筛选共有DEGs,构建PPI网络鉴定关键核心基因。使用KM生存分析和ROC分析鉴定核心基因的预后和诊断价值。使用UALCAN数据库,scRNA-seq和qPCR验证核心基因的表达水平。最后使用免疫浸润分析研究这些基因的作用。结果表明,PBK,KIF2C,NUF2,KIF20A,RAD51AP1和DEPDC1可以有效区分ESCC组织和正常组织并与总生存期显著相关。scRNA-seq和qPCR结果表明,ESCC组织中核心基因的表达水平显著较高。此外,免疫浸润分析表明树突状细胞浸润水平与PBK,KIF2C,NUF2,RAD51AP1,DEPDC1的表达水平显著负相关。总的来说,作者的结果表明PBK,KIF2C,NUF2,KIF20A,RAD1AP1和DEPDC1是ESCC诊断和预后的潜在生物标志物和潜在治疗靶点。
流程图:
背景:
近年来,高通量组学数据广泛应用于医学研究中。对测序数据进行重新分析可以鉴定与疾病有关的生物标志物且成本较低。TCGA数据库和GEO数据库存储了大量与食管癌有关的测序数据,可以应用于鉴定ESCC的生物标志物。然而,大部分的测序数据都是对组织进行测序,得到的是组成细胞的平均表达水平并不能反映癌细胞的真实情况。因此,使用单细胞测序数据验证基因的表达水平较为真实可靠。本研究作者结合了6个GEO数据集和TCGA数据集筛选与ESCC诊断和预后有关的生物标志物并使用scRNA-seq数据和qPCR进行验证。
材料与方法:
1.数据集获取:从GEO数据库下载ESCC的肿瘤组织和正常组织的GEO数据集(表1)。
从TCGA数据库下载TCGA-ESCC数据集,包括11例正常组织和78例肿瘤组织(表1和表2)。
收集6例接受手术的ESCC患者的肿瘤组织和正常组织进行qPCR(表3)。
2.DEG分析:对GEO数据集和TCGA数据集进行差异分析鉴定DEGs,使用jvenn鉴定共有DEGs。
3.功能注释和筛选核心基因:使用STRING进行GO分析,通路分析和PPI分析,使用cytoHubba筛选核心基因。
4.核心基因临床价值分析:KM生存分析和ROC分析
5.核心基因表达水平验证:使用UALCAN数据库验证核心基因的表达水平,下载包括3例ESCC样本的208个细胞的单细胞数据集(表4)进行分析。对6例ESCC组织和正常组织进行qPCR。
6.免疫浸润分析:使用TIMER进行核心基因表达水平与免疫细胞浸润水平的相关性分析。
结果:
1.数据预处理
首先,作者使用R包Limma对GEO和TCGA数据集进行标准化,随后使用R包factoMineR和factoextra进行PCA分析。结果表明,GSE17351,GSE20347,GSE23400,GSE100942,GSE38129和GSE77861数据集的所有样本都可以分为正常组和肿瘤组,而有4个正常样本和3个肿瘤样本没有差异,因此接下来分析中去掉这7个样本(A-1F)。
2.GEO数据集和TCGA数据集的共有DEGs
对GEO数据集分别进行差异分析鉴定DEGs(A),使用jvenn鉴定共有DEG,鉴定到132个下调基因和48个上调基因(B)。对TCGA数据集进行差异分析鉴定到1383个下调基因和1268个上调基因,韦恩图表明GEO数据集和TCGA数据集有55个下调共有基因和27个上调共有基因(C)。
3.功能注释和PPI分析
使用STRING数据集对DEGs进行GO分析,通路分析和PPI分析。结果表明,大部分上调基因存在于细胞核和细胞内,主要参与细胞过程,有丝分裂细胞周期和胶原代谢过程的正调控。通路富集分析表明上调基因参与细胞周期,细胞外基质组织和DNA修复(A)。下调基因主要与肌原纤维,离子跨膜转运蛋白活性调控和肌动球蛋白结构组织有关(B)。使用STRING数据库构建PPI网络并筛选核心基因,结果表明PBK,CDC20,KIF2C,BIRC5,NUF2,KIF20A,RAD51AP1,RFC4,MCM2和DEPDC1是核心基因(C)。
4.KM生存分析和ROC分析
为评估核心基因的临床价值,作者进行KM生存分析。其中PBK,KIF2C,NUF2,KIF20A,RAD51AP1和DEPDC1与总生存期显著相关(A),这些基因低表达与生存较差有关。ROC分析表明,PBK,KIF2C,NUF2,KIF20A,RAD51AP1和DEPDC1可以有效区分ESCC组织和正常组织(B)。
KM分析和ROC分析
5.核心基因表达水平的验证
作者使用UALCAN ESCA数据(11例正常组织和95例ESCC样本)研究核心基因的表达水平,结果表明PBK,KIF2C,NUF2,KIF20A,RAD51AP1和DEPDC1在肿瘤组织中的表达水平较高(A)。此外,scRNA-seq分析表明核心基因主要在癌细胞中表达(B)。qPCR结果表明核心基因在肿瘤组织中的表达水平较高(C)。
6.免疫浸润分析
为进一步研究这些核心基因表达水平与免疫细胞浸润水平的关系,作者进行TIMER分析。结果表明肿瘤纯度与PBK,NUF2,RAD51AP1和DEPDC1表达水平负相关。PBK,KIF2C,NUF2,RAD51AP1和DEPDC1与树突状细胞浸润水平表达水平负相关,而与其他细胞浸润水平无关(A-6F)。
结论:
总的来说,作者的研究鉴定到6个新的ESCC生物标志物(PBK,KIF2C,NUF2,KIF20A,RAD51AP1和DEPDC1),可以作为食管鳞状细胞癌的诊断和预后指标。此外,scRNA-seq结果表明核心基因主要在癌细胞中表达,qPCR结果表明核心基因在肿瘤组织中高表达。免疫浸润分析表明,核心基因表达水平与肿瘤纯度显著正相关而与树突状细胞显著负相关。树突状细胞是最重要的抗原呈递细胞,在先天免疫和获得性免疫中起到关键作用。树突状细胞浸润水平降低会影响抗原呈递,从而导致宿主免疫反应不能有效杀死肿瘤细胞。这可能是食管鳞状细胞癌发生的潜在分子机制之一。作者的研究结果表明,这些核心基因可以作为ESCC治疗的潜在靶点,但还需要进一步实验验证。