一文带你了解生物信息学中基于深度学习的聚类方法

admin 113 2025-01-30 15:38:44 编辑

在平常的课题研究中,相信大家都做过聚类分析,无论是对基因、通路还是细胞,甚至文本、图像等等。常用的聚类方法有很多,如层次聚类、基于质心的、基于分布的、基于密度的以及自组织映射等。然而,在生物信息学研究中,面对大规模的复杂数据,传统的聚类算法常常难以满足需求,基于深度学习(DL)的聚类算法则很好的解决了这一难题。今天分享的这篇文章是发表在Briefings in Bioinformatics(IF=8.99)杂志上的(PMID:32008043),让我们来简单了解一下生物信息学中常用的深度学习聚类方法,以及应用案例。

 

方法介绍

基于DL的聚类方法可以分为两大类,类是管道式方法,第二类是端到端聚类的单模型方法。管道式方法的聚类过程通常可分为两个阶段,阶段是利用深度神经网络(DNN)结构(如多层感知器、卷积神经网络、深信度网络等)进行参数初始化和表示学习(RL),也就是我们常说的特征学习,并使用非聚类损失进行训练,然后,从一个或多个层中提取潜在特征(LFs)来表示数据;第二阶段是通过计算辅助目标分布和最小化聚类损失之间的迭代来优化参数,然后用反向传播算法更新质心,通过基于机器学习(ML)的聚类算法迭代优化聚类目标,如凝聚聚类(AC)和K-均值聚类。 然而,为了获得更好的聚类结果,在第二阶段需要对网络进行训练和更新,同时优化聚类和非聚类损失。现有的方法中常采用的措施有:(1) 利用神经网络体系将高维输入空间嵌入到低维特征空间中进行RL,生成有利于聚类的特征;(2)将聚类和非聚类损失进行结合;(3) 更新DNN和聚类算法的参数,优化组合损失。

在利用DNNs进行RL阶段,使用最多的是自动编码器(AEs),AEs是一种有三层的神经网络:输入层、编码层和解码层。该网络的目的是重构其输入,使其隐藏层学习到该输入的良好表征。如果训练好的模型使得输出与输入一致,那么中间少量的神经元就可以表示输入数据,我们可以基于自动编码器获取适合的数据格式,然后进行聚类。

但是,AE并不适用于2D/3D有限离散信号或数字图像,因此后来又有几种方法被提出来。卷积神经网络(CNN) 可以保留从最深卷积层输出的局部结构,提取为LF,因此能更好的处理空间不变性数据(如图像)。变分自编码器(VAE) 基于变分贝叶斯和图形模型,能够生成人工样本,适用于有限标记或未标记样本的基因组数据以及数字数据。但计算复杂度很高,对HQ生物图像的聚类效能较差。

 

聚类实例

作者分别用不同的方法对基因组数据、生物医学文本和生物成像进行了聚类,程序都是基于Python的,代码链接是https://github.com/rezacsedu/Deep-learning-for-clustering-in-bioinformatics。

对基因表达数据的聚类

聚类所用的数据集是The Pan-Cancer Analysis Project的一个随机子集,包含801例患者的RNA-Seq数据,覆盖了BRCA、KIRC、COAD、LUAD和PRAD这五种癌性。为基于VAE的聚类示意图,共12层,在非线性之前使用BN(批标准化)层,每一层使用ReLU激活函数。

在RL阶段,概率编码器作为近似函数将输入映射到一个分布。然后,生成概率解码器利用条件概率的方法生成原始样本。在不同聚类算法的结果中,基于长短期记忆自编码器(LSTM-AE)的LF超参数优化的AC算法性能最好。为了评估学习表征是否可以表达患者的生物学特征,原始GE谱、LF向量和AC在LF上生成的聚类如所示。

从.d中,可以观察到五种癌症患者之间高度不同的模式。BRCA、COAD和LUAD患者都能被很好的聚类,PRAD和KIRC在一定程度上存在混合,没有很好地分离。

聚类乳腺显微镜图像

文章所用数据集是BreAst Cancer Histology (BACH),根据癌症类型,图像被分为健康组织、良性病变、原位癌和浸润癌4类。原始图像数据集由400张标记的显微镜高分辨率(2040 x 1536像素)、未压缩、被苏木精伊红染色剂染色的注释图像组成。所使用的聚类方法基于卷积自编码器(CAE),由24层组成。在非线性之前使用批标准化(BN),每层使用ReLU激活函数。在RL阶段,编码器的卷积层从给定的图像计算特征图谱,上采样层对图像进行放大。然后,设置K=2启动聚类,K逐步增加到10以寻找最优参数。在不同方法的聚类结果中,基于CAE-based LF的AC算法性能最好,聚类精度为0.84。分别对应了原始图像像素、编码器的输出(即LF映射)、AC生成的簇以及使用LF映射基于AC的聚类结果。

聚类语义相似的生物医学文本

作者使用了来自https://www.drugs.com/的215063条关于特定药物的表述,包含了药物的有效性和可能的副作用。在对文本进行标准化以及语义相似性计算之后,基于LSTM-AE进行了聚类。在RL阶段,编码器学习输入文本的固定长度向量特征,而解码器使用这种特征,利用当前隐藏状态和前一个时间步长的预测值重建原始向量。作为近似函数的概率编码器将输入映射为一个分布,然后,生成概率解码器利用条件概率生成原始样本。接下来,使用不同的算法进行聚类,其中,基于LSTM-AE生成的LF的OPTICS聚类算法具有最佳效能,聚类精度达到了0.84。

通过对三种不同类型数据的聚类结果表明,基于DL的方法优于基于ML的聚类算法。对于医学图像来说,CAE + AC是最好的选择,CAE + OPTICS的聚类效能也良好。相比之下,基于LSTM-AE生成的LF,利用AC和OPTICS算法,对基因表达和文本数据的聚类效果最好。但是,聚类结果取决于数据类型、RL质量和聚类算法,不同的问题需要不同的技巧,并不存在普适的方法。

 

原文链接:https://pubmed.ncbi.nlm.nih.gov/32008043/

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 今天我们来谈谈进化
相关文章