简单介绍

基因组组装还在狂热的追求N50大小吗?NO,N50越大BUSCO说并不一定越好!还在使用CEGMA做基因组组装完整性评估吗?NO,CEGMA自己说BUSCO已经把我踢走了!呵呵,今天小编先给你一个干货,BUSCO详细用法,下一次详细讲述BUSCO原理,欢迎关注公众号,敬请期待!
一、需要事先安装的软件
- Python 3 Found in most linux package repositories- NCBI BLAST+ http://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/- HMMER http://hmmer.janelia.org/(如果无管理员权限,注意在程序里面加上全路径,具体修改后程序可以问我要)- Augustus 3.0.x (genome only)http://bioinf.uni-greifswald.de/augustus/(如果无管理员权限,注意在程序里面加上全路径)**注意添加环境变量
export AUGUSTUS_CONFIG_PATH=/my_path_to_AUGUSTUS/augustus/config- EMBOSS tools 6.x.x (transcriptome only)ftp://emboss.open-bio.org/pub/EMBOSS/
二、BUSCO输入与输出及参数
-o 输出文件夹
-in 输入文件 (基因组组组装文件、转录组组装文件,基因预测文件,全为fasta格式) t
-l 保守序列文件(Lineage data)可以从http://busco.ezlab.org/下载。包括Arthropods: 节肢动物(2675个基因) Vertebrates: 脊椎动物(3023个基因) Fungi:真菌(1438) Bacteria: 细菌Metazoans(40):后生动物(843); Eukaryotes:真核生物(429) For version 2.0, there is a new lineage "plantae".
-m 分析的模式。包括基因组组装评估(all)、转录组组装评估(OGS)以及基因预测评估(trans)
其他选项
-sp :做AUGUSTUS用于训练的物种名字
-e :blast的e值Default: 0.01
-flank:AUGUSTUS做预测时向两侧延伸的长度Default: 根据基因组大小在5 到 20kbp之间
-f 更新之前的运行结果
三、用法(三个功能)
1- Genome assembly assessment:python BUSCO_v1.1b.py -o NAME -in ASSEMBLY -l LINEAGE -m genomeNAME nam三种模式e to use for the run and all temporary filesASSEMBLY genome assembly file in fasta formatLINEAGE path to the lineage to be used (-l /path/to/lineage)2- Gene set assessment:python BUSCO_v1.1b.py -o NAME -in GENE_SET -l LINEAGE -m OGSNAME name to use for the run and temporary filesGENE_SET gene set protein sequence file in fasta formatLINEAGE path to the lineage to be used (-l /path/to/lineage)3- Transcriptome assessment:python BUSCO_v1.1b.py -o NAME -in TRANSCRIPTOME -l LINEAGE -m trans
欢迎关注
关于生物实验更多资料,欢迎关注实验🐶