来自约翰·霍普金斯大学医学院,美国马里兰大学,Pacbio公司,厄勒姆学院在Giga Science上联合发表六倍体小麦-中国春基因组。文章题目为:
The first near-complete assembly of the hexaploid bread wheat genome,Triticum aestivum

摘要:
普通小麦,具有科学已知的最复杂的基因组之一,每个染色体6个拷贝(六倍体),大量近似相同的序列分散在超过150亿的碱基上。 过去多次尝试组装基因组,但组装结果均远低于估计的基因组大小。在这里,我们报告了个近乎完整的组装结果,主要采用高深度的Illumina短的二代测序read和非常长的pacbio公司三代测序read。 最后组装得到含15,344,693,583个碱基,N50大小为232,659 bp。 这代表迄今为止最为完整和连续的小麦基因组组装结果,对这一重要粮食作物的未来功能基因组学的研究的供了强有力的基础。我们还报告了使用最近公布的小麦D基因组的的二倍体祖先Aegilops tauschii的基因组,鉴定得到普通小麦4,179,762,575 bp相应的D组成分。
一、组装数据
测序材料为中国春,测序数据量如下:
二代数据:7.06billion Read,1 trillion 碱基,大约覆盖65X
三代数据:55.5 million Read,545 billion 碱基,大约覆盖基因组36X
二、组装流程
采用以下步骤,获得组装结果如表1:
1. super read组装
采用MaSuRCA assembler (v. 3.2.1) 软件,使用二代测序数据,总共产生95.7 million super-reads ,碱基数为 31 Gb,平均长度324 bp,N50 为474 bp。将原始测序数据压缩了32倍。
2.mega-reads组装
主要将super-reads比对到三代Read上,然后替换比对区域相应的三代Read,以获取高保真的序列。因而一条三代Read可能被拆分成2条mega read。总共获得57,020,767 mega-reads ,平均长度 4,876bp, N50长度 8,427 bp. 总碱基长度 278 Gb,覆盖基因组18X 。
同时若一条三代Read连接起两条super-reads,那么借助于此连接关系,可以人工构建mate pairs数据,具体方法是抽取此条三代Read对应的两条mega read两侧各400bp序列。这样获得了23.45 million reads, 总共 18.75 Gb序列。 super read和 mega-read构建需要 100,000 CPU hours, 内存峰值 1.2T。
3.Celera Assembler组装
使用Celera Assembler [8] (v8.3)进行mega read组装,同时利用上步产生的mate pair数据;此步纠错等用时较长,需要 ~470,000 CPU hours。
经过上述过程产生基因组为Triticum 1.0,大小 17.046 Gb,829,839 条contigs, contig N50 为76,267 bp ,scaffold N50大小101,195 bp (Table 1)。
4.MUMmer去冗余
主要是用MUMmer进行去冗余。得到Triticum 2.0, 大小14.40 Gbp, 375,328 条contigs ,contig N50 75,599 bp, scaffold N50 100,805bp。
5.FALCON组装
鉴于只有36X三代测序数据, 我们将 long-read 过滤参数设置为1 Kb,产生了11X 纠错后数据, N50大小16 Kb,纠错与组装用时~150,000 CPU hours;Polish需要 ~160,000 CPU hours。获得FALCON Trit 1.0,大小 12.94 Gbp ,97,809条 contigs,平均长度132,289 ,N50 大小 215,314 bp。
6.Merged assembly
FALCON Trit 1.0组装N50较高,但长度比Triticum 2.0小约1.5Gb,为了利用FALCON Trit 1.0的优势,因此需要将两个结果Merge,取得更好的组装指标及更合理的基因组长度。主要使用 MUMmer4.0, 借助于Triticum 2.0 将 FALCON contigs 进行合并,若一条Triticum 2.0中序列对应两条FALCON contig,中间gap用Triticum 2.0 序列填充。
Merge完之后,将 Triticum 2.0 中独有的序列添加到Merge后的序列中,得到Triticum 3.0, 长度15,343,750,409 bp,279,529条 contigs, contig N50 大小232,613 bp (Table 1). 最长contig4,510,883 bp.
7.Re-polishing
由于Triticum 2.0 来源于二代序列组装,碱基准确性较高,因此我们用Triticum 2.0 重新polished Triticum 3.0。将比对一致的地方用Triticum 2.0序列替换,大约98% 的Falcon 组装序列被相应的Triticum 2.0替换,获得 Triticum 3.1。
三、组装完整性与准确性评估
1.祖先种Ae. tauschii评估
99.8% 的Ae. tauschii可以很好地比对到Triticum 3.0基因组上。
2.BACend
19,401 BAC ends比对 Triticum 3.1,18,465 比对上, 其中 2,739 对比对到同一条 contig,2,709(99%) 方向和距离正确。
3.BUSCO
BUSCO (version 3.0.2)评估完整性。Triticum 3.1比对 OrthoDB (v9.1)数据库, 1415(总数1440)BUSCO genes 完整存在,只有 4 BUSCO genes 是fragmented , 21 个 missing。