大数据时代 – 究竟什么是实验验证
文章杂志情况
<GENOME BIOLOGY> ISSN: 1474-760X;
2018_IF = 14.028; 2019_IF = 10.806;
中科大类: 生物 1区;
中科小类: 生物工程与应用微生物 1区, 遗传学 1区;
JCR分区: Q1
为什么要写这个文章呢?就是目前生物信息,计算生物学很火的背景下,科研人员很希望知道自己的计算结果是否可以得到实验验证的支持。但是,这个定义就很难描述了,在计算生物学领域,“实验验证”指的是通过不依赖广泛使用计算资源的调查来重现使用计算方法获得的科学发现的过程。这个过程涉及到额外证据的积累,以支持计算研究的结论。让我们看一看下面这两个术语的中心词,思考一下真正的“验证”又是什么呢?
normal distribution —>normal—> 自然、标准、正确?
experimental validation—> validation —>证明、认证、合法化?
为了回答上面的问题,我们提出以下几个分类:
一、理论模型
为了解释一个生物现象,比如肿瘤生长的计算模型;癌症是如何开始、发展和扩张的;以及如何通过使用一种治疗化合物来阻止它。我们会被问到,应该如何评估这个模型结果,换句话讲,就是验证步骤是否可以陈述计算模型的正确性。
这时我们需要重新考虑计算模型的概念。简单地说,一个计算模型包括一个建立在假设基础上的数学框架,这些假设本身是由一系列经验观察得来的。在上面的例子中,我们知道癌症是一种异常细胞增殖的遗传疾病,细胞按分裂次数增加。如果我们的计算模型不能准确估计n次分裂后的癌细胞数量,这种偏差并不是因为指数函数,而是因为我们的假设或模型过于简单。例如,我们在模型中没有包括其他变量,如营养水平或肿瘤与免疫系统的相互作用。事实上,对于模型的重建,需要有一定程度的经验知识作为先验。然而,关键的一点是,计算模型本身不需要验证,因为它只是一个逻辑系统,从一个先验数据推导出更复杂的特征。先前获得的经验知识在调整模型参数方面起着重要的作用,模型参数可以调整以最优地拟合实验数据。在这种情况下,实验数据的作用应该被更好地描述为“校准”,而不是“验证”。
二、数据驱动的推测
近年来,高通量技术的出现使得大量生物数据的生成成为可能,尤其是在组学领域,而开发分析和解释数据的精确方法和模型与数据生成本身一样重要。换句话说,大数据改变了我们处理生物数据的方式,仅仅是因为它的大小。例如,在DNA测序色谱图上查看数百万个reads来分析样本的基因组序列是不可行的,因此已经开发出复杂的方法和pipeline来处理signal reading, alignment 和variant calling。因此这里,计算方法是出于处理这些大数据的需要而发展起来的,而不是作为实验的替代品,而实验在新时代仍然是生物学的核心。那么面临的问题是,是否有必要进行额外的低通量实验来验证推断?所谓地通量,是指Sanger dideoxy sequencing 或Western blotting方法,因此,用正交方法部分再现计算生物学研究结果的实验研究的性能,“确证”比“验证”的描述更恰当。
三、拷贝数变异(WGS vs FISH)
Copy number aberration (CNA)是几乎所有癌症类型的特征。CNA不仅定量肿瘤特征,在功能水平上对给定基因进行two-hit hypothesis (bi-allelic inactivation)估计基因剂量。目前call CNV在肿瘤-正常配对样本的WGS数据水平。最新开发的方法不仅可以检测总拷贝数,还可以检测等位基因特异性拷贝数,并可以区分在所有肿瘤细胞(克隆事件)中发现的CNAs和在细胞亚群(亚克隆事件)中发现的CNAs。核型分析和荧光原位杂交许多细胞(通常是20-100个细胞)的(FISH)已经成为检测肿瘤中CNAs的黄金标准方法。FISH比核型分析有更高的分辨率但通常使用一个或几个位点/染色体特异性探针来推断整个染色体的缺失/存在和计数,而基于WGS的CNV calling是一个区域数千个SNP信号确定的。虽然FISH在某些情况下有优势,例如检测全基因组重复样本,但目前尚不清楚FISH的结果是否比WGS的结果更可靠,而且它对亚克隆和亚染色体臂大小解析水平更低。因此这里推荐数千单细胞低深度的WGS做CNV。
四,突变(WGS/WES vs Sanger)
WES/WGS的核心分析之一是使用germline 或者 somatic pipelines,以识别疾病的病因变异分别为易感性或开始/进展。变异检测的黄金标准是桑格双脱氧测序。然而,该方法不能可靠地检测到变异等位基因频率(VAF)在~ 0.5以下的变异。在嵌合体的情况下,germline 或者 somatic水平的低纯度克隆变异体或高纯度亚克隆变异体,Sanger测序不会检测到覆盖率较高的WGS和覆盖率较高的WES实验检测到的变异体。而这时,对感兴趣的位点进行高深度靶向测序则更为合适。该方法不仅具有更强的检测候选变量的能力,而且可以给出更精确的VAF估计,并且更容易应用于更多的变量。
五、差异蛋白表达(质谱/免疫印迹/ELISA)
近年来,质谱(MS)通过提供可靠、准确和可重复的蛋白质检测,彻底改变了蛋白质组学。然而,该领域的黄金标准仍然是western blotting法,它是一种非定量或半定量的方法,用于检测复杂生物样品中的特异性蛋白,基于选择性抗体的特异性。在一个复杂的肿瘤样本,提取比较,结果与基于超过五肽的蛋白质~覆盖30%的蛋白质序列(E value < 10−10)与三个复制的免疫印迹结果使用一个线性表位的抗体已不到1%的覆盖率。很明显,可以对MS结果的可靠性有更多的信心。此外,值得注意的是,Western Blot/ELISA抗体并非适用于所有已鉴定的蛋白,即使可用,由于癌细胞中非沉默的体细胞突变率高,它们也可能没有预期的效率。因此,认为MS具有更高的分辨率。
六,差异表达基因(RNA-seq vs RT-qPCR)
转录组学研究中也出现了实验方法,与逆转录定量相比, RNA-seq全转录组是一种全面的鉴定稳定基因转录的方法(RT-qPCR)。高覆盖率的RNA-seq分析比较复杂癌细胞的RNApool 即使不知道样本中核苷酸的转录本序列顺序,也可以检测新的表达的基因。RNA-seq技术还允许通过肿瘤样本的单细胞转录组学进一步探索肿瘤的复杂性和异质性,这是RT-qPCR不可行的。
综上所述,“实验验证”这一词语还是狭义的,因为它阻止了对高通量和低通量方法的相对优势的客观评估,作者鼓励使用价值负载较小的术语,如“实验校准”或“实验确证”。所以无论现在大数据时代驱动的高通量还是曾经黄金标准的地通量,其实对于实验的真实性而言,都是有不同意义。如图一所示,我们设想这样一个世界:“实验”科学家被要求做“计算验证”, “计算”科学家被要求做实验验证。
所有关于湿实验室和干实验室生物学的研究都使用计算方法来检验数据。每个人都是从实验室开始生成或收集原始数据,只有当我们试图分析和做出推论时才会有所不同。我们认为“计算验证”是在所有的实验和计算研究中进行的。例如,病例对照设置中的实验复制本身就是一种计算验证,因为我们将病例和对照之间的平均值±SD或任何其他计算导出的summary,区别信号和噪音。因此,“计算验证”是一个应该与“实验验证”一起被陈述的术语,可以科学地再现实验和计算生物学的发现。Ricky Castillo插图
最后希望研究人员,真实的面对数据,选择适合自己数据的验证方式,不盲目追随高通量,大数据这样的词眼,着眼于样本,挖掘更多有价值的真实信息才是黄金标准!