刚接触基因组组装时候对于read,contig,scaffold是啥玩意,感觉好迷糊啊,为啥们搞个组装还要打断测那么短的read呢,直接把整条染色体测了不就行了,不用组装,还省事。但后来慢慢接触了发现这是不现实的,因为我们没有这样的一种酶,能够连续的读完一条染色体序列的长度,即使是目前火热的三代测序,读长也只有十几个Kb,因此要想实现染色体水平的组装必须要借助于新的技术。而Hi-C技术正是为实现染色体水平组装而产生的。
为什么能够组装成染色体,因为Hi-C数据可以理解为是一个超大文库,其插入片段到底有多大呢?看看下表就知道了。
Hi-C插入片段长度分布表
插入片段长度
<10Kb
10kb-100kb
100kb-1Mb
1Mb-10Mb
10Mb-100Mb
>100Mb
Read Pairs比例(%)
15
15
18
13
16
2
2017年3月23日Science发表利用Hi-C完成传播寨卡病毒和西尼罗病毒的两种蚊虫的3条染色体序列的组装,并提出新方法,此项研究由贝勒医学院牵头,莱斯大学、德克萨斯儿童医院和麻省理工与哈佛组建的博德研究院参与的研究团队完成
其组装流程图如下:
细观此流程比较关键的是迭代纠错,因为组装的scaffold或者contig版本基因组或多或少都会存在错误,像作者在此蚊虫scaffold版本基因组中共鉴定了1422个明显的拼接错误,这充分体现出了Hi-C在纠错方面的重要作用(很荣幸,百迈客Hi-C产品早已注意到纠错的重要性,自己开发的流程已应用于多个在线项目)。
准确性如何呢,下面是与遗传图的比较,可以说十分完美!
回顾Hi-C组装的历史,可以看到基本本上都是高分文章。
2013年Nature Biotechnology首次发表在人、小鼠、果蝇中利用二代组装产生的scaffold经Hi-C组装成了染色体,对于人和小鼠准确性达到99%以上。
2015年发表在Molecular Plant上的拟南芥(拟南芥变种Landsbergerecta)基因组利用Hi-C成功将99.10%的Draft genome序列挂载到染色体上()。与参考基因组共线性及遗传图一致性均很高。证明了在植物中应用的可靠性。
2017年3月6日年发表在Nature Genetic上的山羊基因组的公布,更加强调了Hi-C应用的可靠性。山羊基因组结合了三代,光学与Hi-C技术成功实现了将基因组挂载到了31条染色体,ContigNG50达到了19.333Mb
参考文献
1. Dudchenko O, Batra SS, Omer AD, et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds.[J]. Science , 2017.
2. Burton, J.N., et al., Chromosome-scale scaffolding of de novogenome
assemblies based on chromatin interactions. Nat Biotechnol, 2013. 31(12): p. 1119-25.3. Ting, Jue-Fei, Zheng, et al. DeNovo Plant Genome Assembly Based on Chromatin Interactions: A Case Study of Arabidopsis thaliana[J]. MolecularPlant, 2014, 408(3):489-492.
4. Bickhart D M, Rosen B D, Koren S, et al. Single-molecule sequencing and
chromatin conformation capture enable de novo reference assembly of the domestic goat genome[J]. Nature Genetics, 2017.
来源:百迈客公众号
欢迎关注