GapcloserManual
简介
Gapcloser软件是用来对soapdenove或者其他软件在连接成scaffold过程中引入的gap进行弥补的。主要是借助read的成对关系。
系统要求

Gapcloser软件设计目的在于处理大植物和大动物(华大一直这样做),尽管它也能很好的处理细菌和真菌。因此他对于集群内存要求比较高,具体主要和read的数量、Kmer 和scaffold中gap的数量和长度有关。时间复杂度主要取决于gap 的数量,大小和read的数量。
以炎黄为例,基因组大概3g,内存最高为200g,耗时1天。
命令行参数:
1. 应用举例
GapCloser –bconfig_file –a scaffold_file –o output_file
2. 具体参数:
GapCloser [options]
-a <string>input scaffold file name, required. Fa文件
-b <string>input library info file name, required. Config文件
[LIB]
avg_ins=180
reverse_seq=0
asm_flags=3
rank=1
q1=180bp_1.fq
q2=180bp_2.fq
[LIB]
avg_ins=220
reverse_seq=0
asm_flags=3
rank=2
q1=220bp_1.fq
q2= 220bp_2.fq
-o <string>output file name, required. 输出文件的名字
-l <int>maximum read length (<=155), default=100. Read的最长的长度
-p <int>overlap param(<=31), default=25. ##重叠的比例
-t <int>thread number, default=1. ##线程数
-h -? output helpinformation.Input files: ##求助
• The format of configure file is the same as the configure file forSOAPdenovo.
配置文件和soapdenove的配置文件时一样的
• The format ofinput scaffold file should be FASTA.
输入的scaffold文件必须为fa格式的
3. Output File:输出文件
• One file (named by -o) contains scaffold sequenceswith some gaps filled.
文件为补过gap的scaffold序列文件
• *.fill
它描述啦scaffold中gap的一些信息,他列是gap在scaffold中的起始位置。第二列是gap结束的位置。The third and fourth are the length of sequencesextending separately from the left and right boundaries of a gap.(没看到,直接pia英文)第五列显示如今gap的状态,如果gao被纠正过来啦,那么flag将为1,否则为0. 第六列是考虑到相对高质量的gao的长度。第七列是原始gap的长度。第8列式最终gap的长度。
>scaffold9
4884 5687 803 0 1 803 765 803
6942 7536 594 0 1 594 657 594
25306 28245 2939 0 1 2939 2860 2939
160735 160727 0 0 1 0 215 4294967288
220202 220206 4 0 1 4 50 4
369172 369173 0 0 0 0 1 1
649577 651402 1440 385 1 1825 1440 1825
653885 655404 1519 0 1 1519 1520 1519
680230 680233 3 0 1 3 1 3
常见的问题如下:
1 哪些read 会用来做gap filling ?
GapCloser 主要用那些中短长度的read,尽管长度》2k的也会发挥作用。
当然如果在补洞之前,对read进行纠错,那么对于纠错的准确性和内存的使用都是有好处的。
2. What’s thesequence quality produced during gap filling?
The sequence qualityis statistically lower than that of the sequences on both sides of the gaps.
欢迎关注