17Gb六倍体小麦基因组在线发表-行业观点-衍因科研协作平台

17Gb六倍体小麦基因组在线发表

admin 152 2025-01-22 09:30:43 编辑

来自约翰·霍普金斯大学医学院，美国马里兰大学，Pacbio公司，厄勒姆学院在Giga Science上联合发表六倍体小麦-中国春基因组。文章题目为：

The first near-complete assembly of the hexaploid bread wheat genome,Triticum aestivum

摘要：

普通小麦，具有科学已知的最复杂的基因组之一，每个染色体6个拷贝（六倍体），大量近似相同的序列分散在超过150亿的碱基上。过去多次尝试组装基因组，但组装结果均远低于估计的基因组大小。在这里，我们报告了个近乎完整的组装结果，主要采用高深度的Illumina短的二代测序read和非常长的pacbio公司三代测序read。最后组装得到含15,344,693,583个碱基，N50大小为232,659 bp。这代表迄今为止最为完整和连续的小麦基因组组装结果，对这一重要粮食作物的未来功能基因组学的研究的供了强有力的基础。我们还报告了使用最近公布的小麦D基因组的的二倍体祖先Aegilops tauschii的基因组，鉴定得到普通小麦4,179,762,575 bp相应的D组成分。

一、组装数据

测序材料为中国春，测序数据量如下：

二代数据：7.06billion Read，1 trillion 碱基，大约覆盖65X

三代数据：55.5 million Read，545 billion 碱基，大约覆盖基因组36X

二、组装流程

采用以下步骤，获得组装结果如表1：

1. super read组装

采用MaSuRCA assembler (v. 3.2.1) 软件，使用二代测序数据，总共产生95.7 million super-reads ，碱基数为 31 Gb，平均长度324 bp，N50 为474 bp。将原始测序数据压缩了32倍。

2.mega-reads组装

主要将super-reads比对到三代Read上，然后替换比对区域相应的三代Read，以获取高保真的序列。因而一条三代Read可能被拆分成2条mega read。总共获得57,020,767 mega-reads ，平均长度 4,876bp， N50长度 8,427 bp. 总碱基长度 278 Gb,覆盖基因组18X 。

同时若一条三代Read连接起两条super-reads，那么借助于此连接关系，可以人工构建mate pairs数据，具体方法是抽取此条三代Read对应的两条mega read两侧各400bp序列。这样获得了23.45 million reads, 总共 18.75 Gb序列。 super read和 mega-read构建需要 100,000 CPU hours, 内存峰值 1.2T。

3.Celera Assembler组装

使用Celera Assembler [8] (v8.3)进行mega read组装，同时利用上步产生的mate pair数据；此步纠错等用时较长，需要 ~470,000 CPU hours。

经过上述过程产生基因组为Triticum 1.0,大小 17.046 Gb，829,839 条contigs, contig N50 为76,267 bp ，scaffold N50大小101,195 bp (Table 1)。

4.MUMmer去冗余

主要是用MUMmer进行去冗余。得到Triticum 2.0, 大小14.40 Gbp， 375,328 条contigs ，contig N50 75,599 bp, scaffold N50 100,805bp。

5.FALCON组装

鉴于只有36X三代测序数据, 我们将 long-read 过滤参数设置为1 Kb,产生了11X 纠错后数据， N50大小16 Kb，纠错与组装用时~150,000 CPU hours；Polish需要 ~160,000 CPU hours。获得FALCON Trit 1.0,大小 12.94 Gbp ，97,809条 contigs，平均长度132,289 ，N50 大小 215,314 bp。

6.Merged assembly

FALCON Trit 1.0组装N50较高，但长度比Triticum 2.0小约1.5Gb，为了利用FALCON Trit 1.0的优势，因此需要将两个结果Merge，取得更好的组装指标及更合理的基因组长度。主要使用 MUMmer4.0，借助于Triticum 2.0 将 FALCON contigs 进行合并，若一条Triticum 2.0中序列对应两条FALCON contig，中间gap用Triticum 2.0 序列填充。

Merge完之后，将 Triticum 2.0 中独有的序列添加到Merge后的序列中，得到Triticum 3.0, 长度15,343,750,409 bp，279,529条 contigs, contig N50 大小232,613 bp (Table 1). 最长contig4,510,883 bp.

7.Re-polishing

由于Triticum 2.0 来源于二代序列组装，碱基准确性较高，因此我们用Triticum 2.0 重新polished Triticum 3.0。将比对一致的地方用Triticum 2.0序列替换，大约98% 的Falcon 组装序列被相应的Triticum 2.0替换，获得 Triticum 3.1。

三、组装完整性与准确性评估

1.祖先种Ae. tauschii评估

99.8% 的Ae. tauschii可以很好地比对到Triticum 3.0基因组上。

2.BACend

19,401 BAC ends比对 Triticum 3.1，18,465 比对上, 其中 2,739 对比对到同一条 contig，2,709(99%) 方向和距离正确。

3.BUSCO

BUSCO (version 3.0.2)评估完整性。Triticum 3.1比对 OrthoDB (v9.1)数据库， 1415（总数1440）BUSCO genes 完整存在，只有 4 BUSCO genes 是fragmented ， 21 个 missing。

NC重磅！CellChat：单细胞通讯分析工具！

805 2024-12-18

17Gb六倍体小麦基因组在线发表

SMART蛋白质结构域注释的20年(附用法）

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

单酶切和双酶切的区别，了解这两者的特点

如何通过智能科研工具提升研究效率与数据分析助力科研创新

SMART蛋白质结构域注释的20年(附用法）

深度学习与生物医药AI大模型如何重塑药物研发的未来？

如何在NCBI上查找基因的CDS序列

最新文章

分子生物学名词解释核心概念与蛋白质组学解读

分子生物学实验技术：体系分类、优化策略与应用案例

分子生物学试剂：保存条件、失效判断与应用指南

《医学分子生物学杂志》学术前沿与投稿指南

分子生物学实验的核心技术与应用

现代分子生物学的主要研究领域

分子生物学技术的主要分类与应用场景

生物化学与分子生物学的学科概述与核心研究内容

分子生物学软件的核心功能与优势

分子生物学工具：核心功能、应用场景与发展趋势解析

热门标签