前言
听说韩国欧巴们最近更新了AK1基因组,组装效果大大的提升,也找到了新的变异,不知道这些变异是不是跟欧巴的大长腿有关?
![韩国人基因组背后的秘密](https://www.yanyin.tech/cms/manage/file/ac2068e7290f4894b3d14c6c1d985e09)
小编觉得目前估计还没有做这方面的分析,如果做还是应该要先选择群体(和日本人进行比对),做选择清除分析,筛选和大长腿相关的基因。
背景介绍
2009年7月8日《自然》杂志在线发布了韩国首尔国立大学科学家完成的首个韩国人全基因组测序结果。这是继一名非洲人、两名白人和一名中国人后,全球第五例全基因组测序。
2016年10月5日,韩国代号AK1的基因组利用新的测序技术进行了升级和更新。小编打算在此跟大家讨论两个问题:
这个基因组为啥叫做AK1。是不是小编很无聊。
这个基因组利用的新技术和新发现的问题。
为啥叫AK1
小编是一个特别爱学习的人,小编翻出了09年的那篇文献,标题A highly annotated whole-genome sequence of a Korean individual。
很明显 AK=a Korean 。
如果你这么想的,你就把韩国人想的太天真了。
中国人测序的基因组,叫做YH。
如果韩国人低调就叫一个韩国人(AK),也就算了。
关键人家是代号是AK1(貌似要整出AK系列啊,AK47,AK48。。。)
热爱学习的小编决定继续寻找资料,真是老天爷饿不死瞎家雀儿,还真让我给找到了。
新基因组公布左右,有文章报道如下:
这项研究从属于”Genome Asia 100K”项目。Genome Asia 100K项目,由Macrogen测序公司,首尔国立大学基因药物研究所主持,共19个亚洲国家参与。项目在2016年2月启动,计划在明年前完成1万名亚洲人的测序,在未来三年内,完成10万亚洲人的测序工作。Jeong-SunSeo教授表示,“我们将努力让韩国在这项亚洲合作的测序项目中成为领头羊。”
这里有两处重点,第一处是Genome Asia 100K ,第二处是韩国要当领头羊。
说到这里,大家有没有一头冷汗。这个AK 其实有可能是Asia 100K的缩写,这样就有理由来解释为啥是AK1,因为后面会有第二个,也就是AK2。
大家可能有点纳闷了,为啥09年的文章说是一个韩国人(a Korean)啊。
因为这个是一个阴谋。
大家说,端午节是谁的,没错 韩国人的。
春节呢,韩国人的。
那啥呢,别管那啥了,都是韩国人的。
。。。
这次,亚洲10万人测序,在韩国人眼中压根就是韩国人的测序,因为亚洲人其实就是韩国人嘛(不容易理解的,默默背诵端午节是谁的)。
所以第一个是Asia 100K的第一个,也是一个韩国人 a Korean的第一个,将来还会有第二个韩国人,第三个韩国人,总之统统都是韩国人思密达。
胡说八道分割线
一本正经分割线
文章正文
以上说的话,都是小编自己瞎想的,各位看官不要介意。
(1)测序技术
说实话,这次这个AK1的组装效果还是很牛叉的,毕竟利用的技术都是最新的。其中有大家熟知的PacBio三代测序技术、BioNano光学图谱技术,还有一大堆的bac。效果自然很好。
看下人家的大手笔:
利用PacBio平台测得110× 数据,
利用BioNano平台分批测得97×和108× 数据
利用Illumina平台测得249.9 Gb二代数据
结合Illumina和PacBio平台以及Sanger测序法,测得62,758 BAC clones
结合Illumina和GemCode平台测得1,153,598,732bp linked-reads。
土豪~~~~
(2)组装效果
组装效果如下
这其实也跟小编原来反复说的是一致的,曾经的参考基因组质量问题比较大,真的需要利用新的技术来好好的提升下,这次韩国人又给打了个样,我们得跟上啦。
(3)结构变异检测
利用新技术组装完毕,首先跟人类 的参考基因组进行了比较,结果如下:
研究发现了大量亚洲人和韩国人特有突变(原来的组装结果不好,很多都没有找到,这次估计找到的东西比较多),填补了亚洲人的基因组信息方面的不足。
同时研究在11号染色体上POU2F3序列附近发现一个长度为592个碱基的插入片段。这一插入在东亚人种广泛分布,少数非洲人具备这一插入,而欧洲人中不存在这一变异。
(4)单体型分析
当然,这么好的基因组,只做如上的分析,有点可惜。欧巴看着这么好的基因组,一激动弄了一个返场小段,也就是单体型分析。主要分析内容如下:
利用Illumina short reads,PacBio long reads,30× linked-reads以及478× BAC克隆的short reads进行单倍型定相分析,获得N50大小为11.6 Mb的phased blocks,这是迄今为止最长的。将BACs序列和PacBio reads与phased blocks比对,用比对上的数据进行从头组装成haplotigs。进一步将haplotigs与人类参考基因组比对,获得SNP、indel和SV。这些haplotigs准确描述了高度可变的MHC复杂区域,并揭示了与临床诊断相关基因的等位基因结构,如CYP2D6。
欢迎关注