2001年第一个人类
基因组草图发布以来,科学家们一直致力于探究人类的完整
基因组序列。短读长测序方法(illumina sequencing)往往不能解决
基因组中的重复序列和高GC含量等区域,导致至今为止我们都不能对中心粒(centromere)一探究竟。NIH的Adam Phillippy和UC Santa Cruz的Karen Miga组织了一个国际团队(Telomere-to-Telomere (T2T) consortium, https://sites.google.com/ucsc.edu/t2tworkinggroup)利用长读长测序技术(Oxford Nanopore and PacBio sequencing)完成了第一个人类完整的X染色体端粒到端粒(T2T)的测序,并分析了其中心粒序列及其甲基化特性。
X染色体端粒到端粒的组装
一. 材料方法1. CHM13hTERT 细胞系(46 + XX)的高质量的DNA。CHM13的基因组可以看作一个近乎完全的纯合基因组,或者有的研究直接称其为单体型基因组。正是由于CHM13的特殊性,降低了后面组装的难度。
CHM13 46+XX 核型 2. 39× 的ultra-long reads 和 70× PacBio reads。利用Oxford Nanopore 和 PacBio sequencing产生高质量的原始数据,以及结合Phillippy组开发的Canu进行原始组成。之后,利用Illumina linked-read barcodes (10x Genomics) and optical mapping (Bionano Genomics) 进行矫正。 3. 手动矫正及组装X染色体的中性粒区域并利用PacBio high-fidelity long reads和dd
PCR和Southern blotting进行验证。 二. 结果1. 利用高质量长读长数据,首先组装出了一个高连续的CHM13的基因组(N50=75 Mbp)而现有的常用人类基因组模版GRCh38的N50只有56 Mbp。然后利用短读长数据进行矫正,最终得到了一个包含448个contigs的2.94 Gbp的基因组(N50=70 Mbp)。然后基于Bacterial Artificial Chromosome (BAC)来比较CHM13组装和GRCh38基因组。
CHM3全基因的contigs与GRCh38的对比 2. 利用X染色体的微卫星重复序列的特有结构和单核苷酸变异来找出特有的ultra-long reads,然后组装这些特有ultra-long reads为中心粒区域(centromeric satellite array on the X chromosome (DXZ1))。DXZ1就是X染色体上高度有序的微卫星序列区域,该区域的序列首次被揭示。接着,通过一系列的实验验证DXZ1区域并且再次利用多种原始reads进行矫正。最终,大约3.1 Mbps的高度重复序列被成功组装。这是第一次人类历史上看到高质量的DXZ1区域,同时也是人类第一次组装出0 空缺(gap)的X染色体(29 gaps在GRCh38基因组中)。
X染色体中性粒手动组装及其BglI酶切位点 3. 利用Nanopore sequencing可以揭示甲基化序列的特性,文章进一步分析了X染色体的甲基化特性,文章发现了多个低/无甲基化的区域,比如:拟常染色体区(pseudoautosomal region 1)和DXZ1和DXZ4等区域。
X染色体的CpG甲基化分析 三. 结语该研究完整的组装出了人类第一条完整的染色体,并在毫无前人研究的条件下,对X染色体的高度重复的DXZ1区域进行了序列测序和验证。所以当该文章首次出现在bioRxiv上时,就造成了学术圈的广泛讨论和多家媒体的报道。同时,作者们也表明他们将继续对其他的染色体进行完整测序,希望能在2020年公布出CHM13所有的染色体的完整序列。这是否也意味着我们离完整基因组测序只有一步之遥? 其实,在T2T测序上我们还有很多困难需要克服,包括但不限于以下几个方面:1. CHM13是一个单倍型基因组,所以其组装难度相对于具有杂合性的二倍体基因组是简单的。那么,我们何时能够得到一个人类phased的二倍体基因组的完整序列?2. X染色体相对于其他一些常染色体来说,组装难度也不大。那么,我们是否能快速及准确的完成其他染色体的T2T测序?3. 从方法学角度,目前的中心粒区域都需要人工组装和矫正。那么,自动化的组装软件何时能够产生?4. 虽然该研究验证了DXZ1组装没有大的结构变异,但是,我们何时才能得到DXZ1的高准确率的序列。 最后,如果你对T2T consortium有兴趣,可以到该组织的网站去查找/咨询。参考文献Miga, K.H., Koren, S., Rhie, A. et al. Telomere-to-telomere assembly of a complete human X chromosome. Nature (2020).Logsdon, G.A., Vollger, M.R. & Eichler, E.E. Long-read human genome sequencing and its applications. Nat Rev Genet (2020).Lander, E., Linton, L., Birren, B. et al. Initial sequencing and analysis of the human genome. Nature 409, 860–921 (2001). 欢迎关注转录组 | 甲基化 | 重测序 | 单细胞 | m6A|多组学 cytoscape | limma | WGCNA |水熊虫传奇|linux电泳 |
PCR | 测序简史 | 核型 | NIPT | 基础实验 基因| 2019-nCoV | 富集分析 | 联合分析 |微环境 瘟疫追凶| 思路汇总| 学者| 科研 | 撤稿 | 读博|基因