推荐一个基因预测软件

admin 73 2025-02-06 09:30:44 编辑

6月份喜事连连,首先是儿童节,大家都变成了宝宝,然后是欧洲杯燃爆激情,然后是魔兽上映,为了部落。

今天想跟大家分享的一款在2月份(核酸研究)发表,6月份升级之后的一款基因预测软件geneMoMa。

简单介绍

geneMoMa是一款利用同源信息来进行基因预测的,操作简单,就是一个简单的jar包,输入的是同源物种的基因组文件和gff文件和要做的基因组文件。由于操作简单,我今天主要跟大家分享下它的文献。

背景

有过基因组分析经历的都知道,在基因组分析中基因预测是比较重要的一环,而能否准确的,有效的借助同源信息提升预测准确性至关重要。目前用于同源预测的,有genewise,exonrate,geneblastG等,在使用中发现这些软件比对的使用只是利用近缘物种的pep文件,没有考虑到基因结构,也可以说信息利用不足。另外以genewise为例,预测的慢不说,预测的结果结构超级差,几乎没有起始密码子,也没有终止密码子。

算法简介

geneMoMa软件是将pep按照exon进行分割,在和基因组比对的时候,分别去比对,得到比对的结果后,综合比对情况进行预测。如果比对结果很好,所有的exon都比对到了,那么直接把位置整合出来就行。并且如果结构不完整,就需要利用算法将相对不保守的位置找出来。最后会向上,或者向下延伸,使结构完整。特点是准确性很高,小编测试过植物大概82.5%,动物77.63%,当然这些都是基于近缘物种较多的情况下,如果较远,这个软件就不合适啦。

 we conclude that homology-based gene prediction using any of the tools considered greatly profits from using an evolutionary related

organism as reference.

软件比较

文章中利用 mimnal F1来衡量预测的准确性。

Basically,minimal F1 =  1 indicates a perfect prediction in the

sense that the predicted coding exons are perfectly identical

to the coding exons of an annotated transcript on the

target genome, and minimal F1 =  0 indicates a prediction

that does not overlap with any known exons.

F1=1:检验标准比较严格,每一个exon都对,才行

F1=0:比较宽松,有一个有overlap就算。

分别测试了exonrate geneMoMa geneblastG,三个软件在人,小鼠,拟南芥等预测结果。

结果如下

个图对人和老鼠的预测中是按照准确性的严格标准分为三个等级,评估三个软件准确性的,可以看出来geneMoMa都是很牛叉的。

剩下的图,是评估在检测准确性严格程度连续的情况下,对人,小鼠,拟南芥三个软件准确性的,绿色的是geneMoMa,感觉像中国股市一样,最好的是绿色,并且一绿到底。

紧接着,文章对N. benthamiana基因组进行预测,发现了10个基因跟官方版本不一致,做实验之后发现,GeneMoMa的结果更好。

Overview of the experimental validation of 10 genes which showed a different annotation in phytozome version 10.1 and GeMoMa. The table

lists ten genes which show differences between the annotation and the GeMoMa prediction. Four of these genes have been missed in the official annotation and six genes have been annotated with a smaller number of exons in comparison to the GeMoMa prediction

文章还评估了geneMoMa 和geneMoMa-protein(不借助基因结构)的情况下对at-os预测的exon准确性。

发现:

we conclude that GeMoMa with intron position

conservation is able to predict transcripts with many exons

and lower PID more accurately than GeMoMa without intron

position conservation, genBlastG and exonerate.

说明geneMoMa对基因结构有很大的依赖。也就是说内含子的划分很重要。

说到这里,插一嘴,文章中提到植物的最大内含子为设为15000 ,动物的为200000。

最后

Assessment of genBlastG, exonerate and GeMoMa predictions

compared to experimentally derived transcripts inN. benthamiana.We plot

the number of matching predictions using only the best prediction (solid)

and at most 10 predictions (dotted) for different thresholds on the corresponding(A) nucleotide F1 values and (B) exon F1 values. As a reference,

we also include the official v0.4.4 annotation.

官网

http://www.jstacs.de/index.php/GeMoMa .

参考文献

Using intron position conservation for homology-based gene prediction


欢迎关注

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: ClinPred一种新的非同义突变危害性预测软件
相关文章