PASA:提升基因预测的利器

admin 98 2024-12-30 09:17:43 编辑

一个完整的基因预测流程,离不开pasa对结果的注释和对结果的修饰--------

 A complete annotation pipeline, as implemented at the Broad Institute, involves the following steps

 (A) ab initio gene finding using a selection of the following software tools: GeneMarkHMM, FGENESH, Augustus, and SNAP, GlimmerHMM. 从头预测

(B) protein homology detection and intron resolution using the GeneWise software and the uniref90 non-redundant protein database. 同源预测

( C) alignment of known ESTs, full-length cDNAs, and most recently, Trinity RNA-Seq assemblies to the genome.基于转录组比对

(D) PASA alignment assemblies based on overlapping transcript alignments from step ( C)  Pasa整合和提升

(E) use of EVidenceModeler (EVM) to compute weighted consensus gene structure annotations based on the above (A, B, C, D)EVM结果整合

(F) use of PASA to update the EVM consensus predictions, adding UTR annotations and models for alternatively spliced isoforms (leveraging D and E). 利用pasa进行修饰

(G) limited manual refinement of genome annotations (F) using Argo or Apollo

手工校正


今天主要是来分享一下03年pasa(现在有pasa2了)这篇文献如何通过pasa利用est和转录组数据对拟南芥基因组注释结果进行提升的。

Improving the Arabidopsis genome annotation using

maximal transcript alignment assemblies

摘要

将转录组数据和基因组做比对得到这一类spliced alignment对于基因组深度注释和分析很有帮助。目前有一款新的软件pasa可以通过对已有的转录本,est序列,通过其overlap 进行聚类,组装程较长的alignment assemble 。并将其作为基因预测和基因结果识别的基础,这样可以预测出新的基因和增加可变剪切的情况。

在优化拟南芥注释的项目中,有半数以上的基因被修饰,超过1000个添加了可变剪切,另外还增加了多个新的基因。

INTRODUCTION

目前est和cDNA 使得对基因组深度注释成为现实,现在通常的做法是利用gapped alignments来识别基因中的exon 和intron 并为之提供证据支持。现在的基因组注释更加依赖于转录组数据。大量的转录组数据不仅能够提高基因注释的准确性,也能为可变剪切提供有利证据。

但是目前的主要方法侧重于将转录组数据组装程唯一的一个基因。这样可能会丢掉部分可变剪切。现在常用的比对工具有blat 、sim4、gap2、spidey,GeneSeqer(软件现在看来都比较过时,但是希望能领会精神) 。目前能倾向于利用transcript-genome alignments 进行基因预测和可变剪切的识别(03年FL-cDNA 还是比较少的)。

因为不利用transcript-genome alignments 结果进行预测,很容易收到序列比对效果,低的测序质量,低质量的基因组的影响。因为alignment assemble是利用多个转录本组装聚成的结果,因此能够有效的减少这些错误。

方法和材料

比对组装算法

首先将est,转录组数据和基因组做比对,然后从左到右,从0,1,2将所有的alignment排列。如果某一个cDNA有两处比对,(50,100),(150,170),那么这个比对是(50,170)。

我们假设所有的cDNA都不是随机比对上基因组的,都是准确比对的(这个假设可以接受)。那么我们可以认为每一处alignment都是不可交换的的。

我们计算这种大的alignment assemble 是利用动态规划算法得到的(EVM中是将各个预测软件exon 利用动态规划整合,这里利用动态规划对转录本进行整合,真牛叉阿)。

Let La denote the maximum number of cDNAs in a

contiguous assembly that ends at alignment a, i.e. it includes a,

compatible alignments contained in the span of a and

alignments that end strictly before the end of a, but not

alignments that strictly contain a. For compatible overlapping

alignments a and b, let Ca\b denote the number of a-compatible

alignments contained in the span of a (including a itself) but

not contained in b and let Ca denote the number of a-

compatible alignments contained in the span of a. 

(这一部分只能意会,不能言传,大家领会思想)

大概的意思是a和b 有overlap,或者是b在a 的左边,或者是a不被b包含,然后利用这三种情况对La打分(这个跟动态规划思想太有关系了,向深入来了解的自行google)

(1)从右到左

(2)从左到右

直接上示意图

A图表示有9种转录本,或者est序列信息。

然后b图是将这些信息绘制成数据表格

对于0,1,2,3,4,5,6,7,8中有overlap的直接利用网格连接,如果没有连接的直接放上砖头。其他情况下上三角La从右到左,下三角Ra从左到右。

选择出分数最高的那条路径就搞定了。

因此可以得到两个组装结果。

比对组装和注释过程

我们利用全长cDNA,非全长cDNA,和est序列,利用SeqClean过滤掉污染之后。然后利用比对软件比对,首先利用blat,如果blat比对失败,再利用sim4,然后利用GeneSeqer。Blat和sim4更为快和准确,虽然GeneSeqer比对比较慢,但是他能在其他软件比对识别的时候,对小exon的识别效果显著。

然后利用pasa进行整合。

整合的标准

由于拟南芥的基因注释结果经过了手工校正,因此提升效果数量相对而言还是很少的。

主要有一下两类,我们也根据自己手工调整得到了可供参考的标准。

新增加的可变剪切位点。这里我们提供的参考是最小的isoforms编码的蛋白至少是最长的isoforms的70%.(70%indentity),否则会影响基因预测的准确性。

对于已有的基因结构的提升和修饰,我们也建议其翻译的蛋白至少要有70%覆盖,70%准确性,和已知的数据库比对,另外不允许出现连续两个及以上的exon 被认为是utr的情况。

策略

全长的转录组比对用来添加新的基因,替代已有的基因结构。不完整的比对用来对已有的基因结果进行修饰。

结果和讨论

cDNA比对和组装

利用177973个ests,27414个完整的cDNA和3217个不完整的cDNA,一共208604条序列,和拟南芥基因组比对。

基因组注释比对和提升

提升效果如下:

主要提升的几种情况

添加或延长UTR,延长编码区,改变internal exon 情况,提供可变剪切,预测新基因。

 Pasa的主要功能

另外如果需要原版文件,麻烦赞赏下,然后留下邮箱地址

希望对你有所帮助。

欢迎关注

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: Circulation:真相了,动脉粥样硬化男女有别
相关文章