癌症中有15%可归因于病毒感染。Nature communications近日的论文“A deep learning approach reveals unexplored landscape of viral expression in cancer”,提出了一种基于深度学习的工具viRNAtrap,对肿瘤病毒组数据进行病毒序列识别和组装。相比之前基于已知病毒序列比对的方法,该方法应用到TCGA的14种癌症数据中,可发现以前没有涉及癌症的意外的且不同的病毒的表达。使用viRNAtrap工具还能够揭示肿瘤组织中人类内源性病毒的表达量与患者存活率低相关。此外,本文还研究了利用生物信息学工具来鉴定和分析癌症中的病毒,以及乳头瘤病毒知识库、病毒变异资源和人类内源性逆转录病毒数据库等数据库。
论文链接:https://doi.org/10.1038/s41467-023-36336-z
1)viRNAtrap的算法架构及评价

与癌症有关的病毒通常分为直接致癌物和间接致癌物,前者通过病毒致癌基因的表达驱动致癌转化,而间接致癌物可能通过与感染和炎症相关的突变导致癌症。迄今为止,已有7种病毒被归类为人类体内的直接致癌物,但对于间接致癌病毒,则了解不多。测序技术的进步有助于更好地认识到癌症中病毒感染的普遍性。然而之前的研究,只是通过比对已有的致癌病毒,以及找出病毒整合到宿主基因组的整合位点。
新方法首先训练一个神经网络,经过嵌入层,卷基层及全连接层,以区分肿瘤RNA数据中未必对读中的病毒序列,之后将分类为病毒的读进行组装,将组装结果和已知的病毒数据库进行blast对比(如a),相比其它病毒序列分类工具,viRNAtrap在训练及测试数据集上的AUC最高(b,c),针对不同类似的病毒,viRNAtrap的分类准确度差异较大(d)
,viRNAtrap的训练及评价方法
2)viRNAtrap在肿瘤RNA数据集上的应用
在TCGA已知的14种癌症中,高危人甲乳头瘤病毒株与宫颈癌,以及HBV和肝癌的关系是研究最多的,经由viRNAtrap,鉴别出的包含病毒的样本数见a,其中对比了作为对照的健康组织和肿瘤组织中的包含病毒序列的比例。可以看到对于HPV和HBV,检出病毒的样本大部分为肿瘤组织,且在肿瘤组织中,读所占的比更大。此外viRNAtrap还在之前认为不存在病毒的样本中检出了病毒序列,这说明了该方法具有高灵敏性。对于头颈鳞状细胞癌,研究还对比了包含病毒和不包含病毒的样本,发现包含病毒的样本,其TMB和CNA都较低(b),这意味着肿瘤组织自身的变异不多,组织癌变更多可归因于病毒感染。c对比了HR-ɑHPVs阳性和阴性的头颈鳞状细胞癌患者,发现HR-ɑHPVs阳性患者的整体存活率更低。
14种肿瘤已知数据在viRNAtrap的表现
除了检测外源病毒,viRNAtrap还可以检测人内源性逆转录病毒在肿瘤组织中的表达。a展示了TCGA数据库中14种癌症样本,针对不同类型的逆转录病毒出现概率的热图,可以看到HERV-K家族最近被整合到人类基因组中,是人类基因组中最丰富的HERV家族之一,也是肿瘤组织中表达比例最高的一类逆转录病毒。b展示了逆转录阳性和阴性患者的生存曲线,可以看到在多种癌症上,阳性和阴性患者的KM生存曲线差异显著,结合a的调色板,大部分癌症中,逆转录病毒出现的概率低于10%,这意味着可基于RNA数据逆转录病毒的出现与否,预测患者的生存时间。c展示了低总生存率相关的癌症驱动基因的HERVs通常更有可能在体细胞突变中表达,如TP53、KRAS、ARID1A和PTEN中。
:viRNAtrap在内源逆转录病毒中的应用
针对一个包含包括人类、蝙蝠、小鼠、昆虫、植物和细菌病毒的数据库,在TCGA的14种癌症的RNA数据中,viRNAtrap发现了之前未知且未预料到的病毒感染(a),其中有些来自植物的病毒,如何进入肿瘤组织,仍是未知。对于IIV31病毒,其在肿瘤组织中出现,具有保护作用,对应着更高的存活率(b),IIV31病毒阳性的肿瘤样本,其TMB和CNA出现的概率也低,这意味着这些样本中的基因组损伤更小。根据转录组数据预测的T调节细胞和CD8细胞比例,在IIV31病毒阳性样本中也更多(d)。在IIV31病毒阳性的的样本中,PTEN、CTNNB1和PIK3R1基因上的体细胞突变与之相关(e)。研究者还在33个卵巢癌样本中鉴定了地杆菌病毒E2的表达;该病毒可能是在高级别浆液性卵巢癌中表达最常见的病毒。f展示预测为地杆菌阳性的COV318细胞系和作为对照的OVISE细胞系之间相对于GAPDH的表达量变化,
:viRNAtrap发现已知在肿瘤中不存在的病毒
3)总结
从肿瘤RNA测序中识别病毒,就有可能发现新的致癌物质和机制。发现有助于癌症发生和进展的新的和不同的病毒物种,对于开发新的治疗方法至关重要,包括疫苗接种、早筛和抗菌治疗。新提出的viRNAtrap可在不进行短序列比对的前提下,通过一种集成的方法来实现的病毒序列的识别,通过组装可检出未知的病毒序列,从而提升检测的灵敏度,从而有潜力已有数据中找出新发现。
通过对来自TCGA的14个癌症组织,使用viRNAtrap检测病毒序列,并分析与患者生存率的关系。发现虽然已知一些外源性病毒的表达与提高生存率有关,但人类内源逆转录病毒的表达与较低的生存率严格相关。这些发现可用于辅助癌症检测,结合用药数据,可分析药物效应与肿瘤组织病毒出现与否的关系。针对逆转录病毒,结合内源病毒表达生存率低的发现,未来还可以研发靶点为抑制其表达的抗癌药物。
由于viRNAtrap的分类算法,是基于人类数据训练的,即分类的数据是判断一条读是来自人的基因组还是病毒的,未来可基于其它基因组序列训练更加通用的模型,来识别来自各种其他生物体的病毒,并利用viRNAtrap框架,实现更高的病毒检测灵敏度。