2014年华大发表的弹涂鱼文章中基因预测部分内容如下:编码基因采用以下三种方式预测: (1) **基于同源预测**:利用同源物种的蛋白网基因组上比对(利用tblastn 参数为-5.),然后将比对上的区域连接起来并扩充 (2)**利用屏蔽掉重复序列之后的基因组做从头预测**:从同源基因集中随机挑选1500个完成基因来对augustus进行训练。利用Augustus和genscan两个软件进行从头预测。按照和同源基因预测同样的标准过滤掉过短的基因。 (3) **转录本基因预测**: 将混样转录组数据利用tophat往基因组上比对。然后利用cufflink工具来识别基因结构来辅助注释。4 **最后利用glean将所有的结果整合**。同样2014年诺和发表的金丝猴文章基因预测部分内容如下:对于编码基因的预测,采用了给予同源,从头预测和基于转录本数据三种方式。1**同源预测**中,我们利用了人,老鼠,黑猩猩等6个近源物种的蛋白利用tblastn和基因组比对,参数为-5,然后利用genewise来预测基因结构。2 **从头预测**,我们用了augustus,genescan,glimmerHMM,sNAp来预测编码基因。另外,我们**将转录组数据往基因组上比对**,(tophat,cufflinks)得到基因模型。然后**利用EVM**将这个三种结果进行整合。 整合之后过滤的标准为:编码区长度 ≤150 bp,只由两个从头预测软件支持,FPKM<5 。通过过滤,获得21813 个编码蛋白的基因。华大发表在science上的鸽子的文章,基因预测部分内容如下:同源信息,转录组信息和重头预测三种方法被整合起来用于注释鸽子基因组的编码蛋白基因。首先,原鸡,智人和雀被用来做同源注释。其中包括以下步骤:1 将三种蛋白去冗余之后,和雀基因组比对,利用tblastn,参数为-5.2 选择比对较好的区域。3 过滤掉比对上的同源块比蛋白序列的50%还短的结果。4 利用genewise来预测。过滤掉结果中分数小于70的基因模型。 我们同时也做了一对基因组的比对,用来确认共线性区域。利用的软件为LAZSTZ。位于共线性区域内的基因认为是高质量的基因。基于三种物种预测出来的同源蛋白进行整合,对于同一个位置,选择最长的。没有位于共线性区域内的基因,如果在Swissprot中找到其对应的功能,那么这个基因就会被舍弃。 这个被整合的基于同源预测的基因作为其他分析的基础。转录组read数据利用tophat比对到基因组上,然后利用cufflinks来组装转录本和orf。转录本支持的并且有完成的orf的基因如果和同源基因集没有交集,就会被加进去。如果包含一个或者多个同源基因,那么我们会用这个新的基因来代替同源基因。转录本基因没有完成orf的通常用来扩展不完整的同源基因,以期找到起始和终止密码子。这部分经由转录本数据提升的基因成为同源-转录基因集。Augustus和Genscan两个软件用于从头预测。然后这两个软件的结果用glean整合,这部分基因中在Swissprot中有功能,并且和同源-转录基因集没有重合的基因会加到基因集中。由于自动注释流程的局限,一些基因可能会被丢掉。一些在鸡,火鸡等物种内存在的基因但是没有在鸽子身上发现。对于潜在丢失的基因,我们利用genewise同于同源基因预测来寻找。那些有转录本支持并且分数大于70的会被添加到基因集中。目前我现在正在处理的基因预测流程是参考华大2014年北极熊的那篇文章,文章基因预测部分内容如下:基于同源预测:我们开发一套流程。将人,狗的基因往北极熊基因组上比对。其中包括以下4步内容:1粗糙比对。我们将人,狗的蛋白序列利用tblastn 参数为-2比对,然后将所有的HSP利用genBLASTA 整合。2精确比对。我们选择出第一步中比对上的区域,并且向两端各扩充500bp 。然后利用genewise来预测。3转录本聚类。 Transcript clustering. All predicted transcript structures were clustered by genomic overlap and a cut-off of > 50 bp. For each gene locus, the transcript supported by the whole genome synteny (Blastz/chain/net) was preferred, or we chose the transcript with the best rate of alignment to its parent protein.(d)过滤假基因。有两种假基因错误,移码突变和提前终止。 我们过滤掉用逆转座子引起的单个的含有错误的外显子。对于多个外显子,没有在共线性区域的,允许出现三个错误。有共线性支持的基因,允许出现8个错误。从头预测。我们用了两个从头预测的软件。genscan和augustus,参数训练选择的是人。过滤掉不完成基因和那些编码区长度小于150bp的基因。然后利用blastp和转座原件蛋白数据库比对,过滤掉比对率超过50%的那些假基因。这些同源预测的基因和从头预测的基因集合并起来组成一个综合非冗余的参考基因集。 我们将重叠大于50bp的进行聚类。对于同一个点,优先考虑人类,如果人基因组没有比对上,用狗,如果没有同源比对上,用利用从头预测的。我们对于从头预测出来的基因采用比同源基因更为严格的标准。 这部分基因中,如果更大的cds来源于genscan和augustus,那么我们需要大于30%的比对在TrEMBL/Swissprot上并且包含至少三个外显子。目前,网上有不少的完整流程,比如GATK等流程。但是对于不同的物种,如果想注释的较为准确,对其注释的大概过程也应该了解。本文就目前文章中常见的几种真核生物基因预测方法进行统计,希望能够帮到大家,当然由于能力有限,肯定有不对的地方,希望大家包容和批评指正。