春雨晓风花开五色 鼠须麟角力扫千军
一、引子
在开始做十二生肖齐拜年活动之时,小编就考虑这个老鼠相关文章的解读工作,翻看了很多的文章,主要是基因组的,发现呢这个老鼠研究的更多的是人的各种实验的模型,更多也就是老鼠跟人多么近,老鼠多么为人类贡献等。因此十二生肖第一篇讲老鼠,还不如介绍一篇人的基因组,这篇基因组也曾经在公众号推送过--AK1韩国人基因组。
2009年7月8日《自然》杂志在线发布了韩国首尔国立大学科学家完成的首个韩国人全基因组测序结果。这是继一名非洲人、两名白人和一名中国人后,全球第五例全基因组测序。
2016年10月5日,韩国代号AK1的基因组利用新的测序技术进行了升级和更新。小编打算在此跟大家讨论两个问题:
1、这个基因组为啥叫做AK1。是不是小编很无聊。
2、这个基因组利用的新技术和新发现的问题。
二、测序技术
说实话,这次这个AK1的组装效果还是很牛叉的,毕竟利用的技术都是最新的。其中有大家熟知的PacBio三代测序技术、BioNano光学图谱技术,还有一大堆的bac。效果自然很好。
看下人家的大手笔:
利用PacBio平台测得110× 数据,
利用BioNano平台分批测得97×和108× 数据
利用Illumina平台测得249.9 Gb二代数据
结合Illumina和PacBio平台以及Sanger测序法,测得62,758 BAC clones
结合Illumina和GemCode平台测得1,153,598,732bp linked-reads。
三、组装水平
这其实也跟小编原来反复说的是一致的,曾经的参考基因组质量问题比较大,真的需要利用新的技术来好好的提升下,这次韩国人又给打了个样,我们得跟上啦。
四、组装变异检测
利用新技术组装完毕,首先跟人类 的参考基因组进行了比较,结果如下:
研究发现了大量亚洲人和韩国人特有突变(原来的组装结果不好,很多都没有找到,这次估计找到的东西比较多),填补了亚洲人的基因组信息方面的不足。
同时研究在11号染色体上POU2F3序列附近发现一个长度为592个碱基的插入片段。这一插入在东亚人种广泛分布,少数非洲人具备这一插入,而欧洲人中不存在这一变异。
五、单体型分析
当然,这么好的基因组,只做如上的分析,有点可惜。欧巴看着这么好的基因组,一激动弄了一个返场小段,也就是单体型分析。主要分析内容如下:
利用Illumina short reads,PacBio long reads,30× linked-reads以及478× BAC克隆的short reads进行单倍型定相分析,获得N50大小为11.6 Mb的phased blocks,这是迄今为止最长的。将BACs序列和PacBio reads与phased blocks比对,用比对上的数据进行从头组装成haplotigs。进一步将haplotigs与人类参考基因组比对,获得SNP、indel和SV。这些haplotigs准确描述了高度可变的MHC复杂区域,并揭示了与临床诊断相关基因的等位基因结构,如CYP2D6。
参考文献
Seo J S, Rhie A, Kim J, et al. De novo assembly and phasing of a Korean human genome.[J]. Nature, 2016, 538(7624):243–247.