基因预测方法(一)

admin 7 2025-02-09 编辑

自从人类基因组计划于 1990 年正式启动,人和其它一些模式生物的DNA序列数据库 就以十分惊人的速度扩增,越来越多的原始序列需要进行注释。科学家们需要各种基于计算方法的基因预测工具,来快速准确地对大量的未知基因组数据进行分析。因此,在过去十多 年里,许多基因识别程序被开发了出来。

1 引言

基因的总体结构大致包括:上游的启动子(Promoter)区域,包含转录起始位点;以及 经转录的结构或称编码区。这些区域的DNA序列可以提供关于该区域可能发挥的生物学作 用的信息,因此一经识别,可以告诉我们基因的可能位置。

人类基因组中约90%是非编码的,也就是说,只有10%左右编码蛋白序列。但无疑这些非编码区也起着某些作用,比如调节蛋白合成,从而控制细胞功能。了解这部分序列的作用是有必要的。为此我们首先需要找到基因,即蛋白编码序列。

定位蛋白编码区最简单的方法是寻找开放阅读框(openreading frame, ORF)。ORF就是 从起始密码子(startcodon)开始,到终止密码子(stopcodon)结束,而且其中不包含其它 终止密码子的一段序列。

图 1 原核生物的基因结构

关于基因结构,原核生物和真核生物有较大区别。原核细胞中大多数DNA 序列都是编 码蛋白的,例如约70%的H.influenzae基因组参与蛋白编码。另外编码区域往往出现在一大 段连续的碱基中,也就是说,编码区中没有内含子(intron)。(如 所示)。所以原核生物 的基因识别相对说来比较容易,只需要寻找长的 ORF 即可。

与原核不同,真核生物基因组序列中包含外显子(exon)和内含子。典型的多外显子基 因具有如下结构(如所示)。它以promoter区开始,然后是一段非编码区,称为5’非转译区(5’UTR)。接着是包含起始密码子的起始exon。这之后则是交替出现的内含子和中间外 显子。然后是包含终止密码子的最终外显子。接下来是一段非编码区,称为3’非转译区(3’ UTR)。最后是一串polyA 序列。外显子与内含子边界(即剪切位点)的标志是一些特定的较短 序列。内含子(外显子)的5’(3’)端叫做供体(donor)位点;内含子(外显子)的3’(5’)端 叫做受体(acceptor)位点。

图 2 真核生物基因的完整结构以及它的表达过程

真核生物基因识别较为复杂,还表现在其结构的多变性。例如,平均说来,脊椎动物的基因长度大约为30kb,其中编码区域只有约1kb。通常编码区域包括6个外显子,每个长约 150bp。但起始、中间和最终外显子的长度分布略有不同。

迄今为止尚没有一个“完美”的基因预测程序。现有的各种方法都有其局限性和弊端。 不过近年来这些方法在基因结构预测的灵敏度和特异性方面都有些提高。这些提高大多是由 于结合了其它找寻基因的手段,例如序列相似性、各种信号及密码子偏好性(codon bias) 等。即使这样,预测结果也还远远称不上理想。各种方法的预测准确性一般都在60%-80% 之间。这主要是由于我们对基因的所有信号和结构信息还缺乏全面的了解,因此难以进一步 提高预测准确性。

原文作者:石忆湘,王卓 上海生物信息技术研究中心

基因预测方法(一)

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 让大脑存活就能实现永生?
相关文章