Gapcloser软件使用手册

admin 73 2025-02-14 15:26:08 编辑

GapcloserManual

简介

Gapcloser软件是用来对soapdenove或者其他软件在连接成scaffold过程中引入的gap进行弥补的。主要是借助read的成对关系。

系统要求

Gapcloser软件设计目的在于处理大植物和大动物(华大一直这样做),尽管它也能很好的处理细菌和真菌。因此他对于集群内存要求比较高,具体主要和read的数量、Kmer 和scaffold中gap的数量和长度有关。时间复杂度主要取决于gap 的数量,大小和read的数量。

以炎黄为例,基因组大概3g,内存最高为200g,耗时1天。

命令行参数:

1. 应用举例

GapCloser –bconfig_file –a scaffold_file –o output_file

2. 具体参数:

GapCloser [options]

-a <string>input scaffold file name, required. Fa文件

-b <string>input library info file name, required. Config文件

[LIB]

avg_ins=180

reverse_seq=0

asm_flags=3

rank=1

q1=180bp_1.fq

q2=180bp_2.fq

[LIB]

avg_ins=220

reverse_seq=0

asm_flags=3

rank=2

q1=220bp_1.fq

q2= 220bp_2.fq

-o <string>output file name, required. 输出文件的名字

-l <int>maximum read length (<=155), default=100. Read的最长的长度

-p <int>overlap param(<=31), default=25. ##重叠的比例

-t <int>thread number, default=1. ##线程数

-h -? output helpinformation.Input files: ##求助

• The format of configure file is the same as the configure file forSOAPdenovo.

配置文件和soapdenove的配置文件时一样的

• The format ofinput scaffold file should be FASTA.

输入的scaffold文件必须为fa格式的

3. Output File:输出文件

• One file (named by -o) contains scaffold sequenceswith some gaps filled.

文件为补过gap的scaffold序列文件

• *.fill

它描述啦scaffold中gap的一些信息,他列是gap在scaffold中的起始位置。第二列是gap结束的位置。The third and fourth are the length of sequencesextending separately from the left and right boundaries of a gap.(没看到,直接pia英文)第五列显示如今gap的状态,如果gao被纠正过来啦,那么flag将为1,否则为0. 第六列是考虑到相对高质量的gao的长度。第七列是原始gap的长度。第8列式最终gap的长度。

>scaffold9

4884 5687 803 0 1 803 765 803

6942 7536 594 0 1 594 657 594

25306 28245 2939 0 1 2939 2860 2939

160735 160727 0 0 1 0 215 4294967288

220202 220206 4 0 1 4 50 4

369172 369173 0 0 0 0 1 1

649577 651402 1440 385 1 1825 1440 1825

653885 655404 1519 0 1 1519 1520 1519

680230 680233 3 0 1 3 1 3

常见的问题如下:

1 哪些read 会用来做gap filling ?

GapCloser 主要用那些中短长度的read,尽管长度》2k的也会发挥作用。

当然如果在补洞之前,对read进行纠错,那么对于纠错的准确性和内存的使用都是有好处的。

2. What’s thesequence quality produced during gap filling?

The sequence qualityis statistically lower than that of the sequences on both sides of the gaps.

欢迎关注

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 结构生物信息学之解析PDB文件
相关文章