BUSCO:基因组组装完整性评估

admin 66 2025-02-15 13:09:08 编辑

简单介绍

基因组组装还在狂热的追求N50大小吗?NO,N50越大BUSCO说并不一定越好!还在使用CEGMA做基因组组装完整性评估吗?NO,CEGMA自己说BUSCO已经把我踢走了!呵呵,今天小编先给你一个干货,BUSCO详细用法,下一次详细讲述BUSCO原理,欢迎关注公众号,敬请期待!

一、需要事先安装的软件

- Python 3 Found in most linux package repositories- NCBI BLAST+ http://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/- HMMER  http://hmmer.janelia.org/(如果无管理员权限,注意在程序里面加上全路径,具体修改后程序可以问我要)- Augustus 3.0.x (genome only)http://bioinf.uni-greifswald.de/augustus/(如果无管理员权限,注意在程序里面加上全路径)**注意添加环境变量 

export AUGUSTUS_CONFIG_PATH=/my_path_to_AUGUSTUS/augustus/config- EMBOSS tools 6.x.x (transcriptome only)ftp://emboss.open-bio.org/pub/EMBOSS/

二、BUSCO输入与输出及参数

-o 输出文件夹

-in  输入文件 (基因组组组装文件、转录组组装文件,基因预测文件,全为fasta格式) t

-l 保守序列文件(Lineage data)可以从http://busco.ezlab.org/下载。包括Arthropods: 节肢动物(2675个基因)    Vertebrates: 脊椎动物(3023个基因)     Fungi:真菌(1438)    Bacteria: 细菌Metazoans(40):后生动物(843); Eukaryotes:真核生物(429) For version 2.0, there is a new lineage "plantae".

-m  分析的模式。包括基因组组装评估(all)、转录组组装评估(OGS)以及基因预测评估(trans)

其他选项

-sp :做AUGUSTUS用于训练的物种名字

-e :blast的e值Default: 0.01

-flank:AUGUSTUS做预测时向两侧延伸的长度Default: 根据基因组大小在5 到 20kbp之间

-f 更新之前的运行结果

三、用法(三个功能)

1- Genome assembly assessment:python BUSCO_v1.1b.py -o NAME -in ASSEMBLY -l LINEAGE -m genomeNAME nam三种模式e to use for the run and all temporary filesASSEMBLY genome assembly file in fasta formatLINEAGE path to the lineage to be used (-l /path/to/lineage)2- Gene set assessment:python BUSCO_v1.1b.py -o NAME -in GENE_SET -l LINEAGE -m OGSNAME name to use for the run and temporary filesGENE_SET gene set protein sequence file in fasta formatLINEAGE path to the lineage to be used (-l /path/to/lineage)3- Transcriptome assessment:python BUSCO_v1.1b.py -o NAME -in TRANSCRIPTOME -l LINEAGE -m trans


欢迎关注

关于生物实验更多资料,欢迎关注实验🐶

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: m6A+免疫浸润思路
相关文章