自然新子刊 计算科学 于6月刊登了一篇综述,讲述多组学研究中被忽略,还没有解决的算法挑战,通过该综述,可以在之后阅读多组学相关的方法学论文时,能够全局的审视方法的创新点在哪里,在自己设计多组学项目的实验,或者分析已有数据时,也可以找到合适的工具来试图应对这些挑战。
1多组学研究的两个目标
近十年来,多组学研究越来越多,其方法学也从单独分析各个组学的数据,再将结果整合变为了使用meta-analysis的方法,汇总分析多个组学的数据,这些方法学可以分为基于贝叶斯模型的,因子分析以及使用机器或深度学习的。然而这些方法都面临着多组学数据本身固有问题所带来的挑战。
多组学的研究,其最终目地可分两类,一是根据不同类型分子层面的信息,区分出不同类型的生物样本,例如患病与否,癌变与否,二是发现位于不同分子层面的细胞调控机制。针对前者,可以分为无监督和有监督两类,前者通过聚类,在隐空间试图发现单一组学下被忽略的亚型;后者常采用机器学习,并通过例如Lasso或弹性网的正则化方法来增强泛化能力,并使用可解释的机器学习方法来找出对分类起关键作用的生物标志物。
多组学的数据集(左图)及多组学研究的两个最终目标(右图)
而关注细胞间调控机制的研究,则是找出特征,例如关键基因后,考察基因间的相互作用如何影响表达量和表观遗传标记。当前也有一些新的方法,可以同时达成这一目标,即预测对应的标签,也解释是怎样的细胞间调控机制导致了对应的标签,例如mixOmics和CANTARE。
2 多助学研究面临的挑战之一-不同组学的数据精确度不同
不同的组学数据,有不同的信号噪音比,导致其准确性差异很大。例如染色质免疫沉淀测序chip-seq的灵敏度就比转录本测序要低。蛋白组能够检测到的蛋白数,也会显著低于转录本检测到的数目,所有这些固有的问题,将会影响最终的统计学效力,还可能假阴性。
不同组学数据的信噪比
为应对这一挑战,已有方法来估计不同的组学所需的样本重复数目,下图展示了MultiPower软件估计的不同组学数据达到特定统计学效力所需的样本数,如此在设计实验时,就可以让不同组学使用相应的重复样本,使得不同组学的2统计学效力相等。
不同组学样本数目和统计学效力的折线图
上述分析策略,是单独分析各自组学的数据,然而,将多组学数据整合考虑,可提升统计学效力,例如整合使用转录相关的snp位点eQTL和甲基化相关的mQTL,可以更好地找出造成表型影响的单碱基突变。
3多助学研究面临的挑战之二-不同组学的数据有不同程度的缺失
数据缺失的原因,可以是随机的实验误差造成的,不具有偏向性,也可能是由技术固有的缺陷造成的,例如例如转录组数据中,对于转录本较长的基因,其捕获效率就相对更低,在DNA的NGS测序时,重复区域的覆盖度低。前一种可通过插值法,利用特征之间的相关性来填充缺失值,后一种数据缺失,只能通过计算方法去进行校正,例如在RNA的数据normalization时,考虑转录本长度,或者使用新的测序方法,例如长读长来补上缺失值。
多组学分析中,缺失值还可能由于匹配数据时,丢掉了部分未匹配数据的某一组学造成。然而,现有的方法已可以支持数据中包含缺失值,例如MOFA将数据映射到隐空间后,去填充数据中的缺失值,MultiBaC可以使用不完全的多组学数据,构建多元预测模型。
然而,不同组学的数据间的分布未必是独立的,而当前的插值方法,忽略了这一问题,导致填充后的数据,会使之后的分析结果出现偏差。这一问题亟需被重视,而不是将缺失值处理当成数据预处理中的标准步骤。
4多助学研究面临的挑战之三-模型的可解释性
多组学研究的亮点,就在于构建对生物复杂性的多层级模型,单个组学的数据,可以对该层级的生化过程进行描述,但如何构建跨层级的模型,是多组学项目面对的挑战。数据驱动的网络模型,例如Cytoscape和3Omics可能由于过于复杂会难以解释,图形化的数据库Neo4j可以灵活的浏览和查询多组学数据,可以提升模型的可解释性。
5 多助学研究面临的挑战之四-数据的注释和存储
如何保存多组学的数据集,促进更好地重复利用已有研究的数据集,是多组学研究面临的另一挑战。通用的原则上FAIR(findability, accessibility, interoperability and reproducibility),即可查询,可操作,可解读,可重复。然而当前的数据平台,是按照单一组学数据规整数据的, 诸如figshare, Zenodo或Lifebit的平台提供了多组学数据的统一存储空间,但对数据的恢复和查询却支持的不好。
6 多助学研究面临的挑战之五-大数据集上的性能优化
随着样本数的增加,模型越来越复杂,以及很多支持将私有数据和公开数据整合后再分析以提高准确度的整合算法的出现,多组学算法所需的计算量也显著增加。对此常见的应对方式,是将数据搬迁到可弹性分配资源的云计算平台,或使用GPU替代CPU去完成重复的运算。
下图按照分析的先后顺序总结了该文提出的五个挑战及机遇,这些挑战,对于单细胞多组学研究,例如sc-ATAC-seq和单细胞转录组的结合也是使用的。
多组学计算方法的挑战:数据收集阶段:缺失数据;分析阶段:计算效率地,不同组学的信噪比差异,可解释性差,整合分析带来假阴性;分析发布阶段:数据存储,数据标注不足