背景
黑猩猩可以说是研究人类起源的最重要的物种。目前版本的参考基因组效果相对较差(Pan_tro_2.1.4),Contig数目超过183,000条,Contig N50只有51Kb,其中gap区域有159,000多个。最近由西班牙、美国、英国多个实验室联合更新一版基因组(Pan_tro_3.0),该基因组应用三不同技术相结合,大大改善了黑猩猩的参考基因组组装,为研究人类起源提供了有价值的资源。
材料
所有数据集均来源于单一的雄性西部黑猩猩。
数据
1、120X的Illumina HiSeq 2500平台测二代数据,文库大小为450bp;
2、43个cell约9X的RSII数据;
3、2X长reads数据,文库大小在10Kb,及Chicago文库。
组装结果
组装时候采用了一系列的步骤,每步都是通过N50进行评估。首先通过DISCOVAR软件(由ALLPATHS-LG 软件开发团队做出来的软件)组装Contig N50约87Kb,借助Chicago文库Scaffold N50达到26Mb,结果相当不错,单条序列达到75Mb;之后借助三代长reads进行补洞,最终组装基因组Contig N50达到283Kb;最后借助Hic挂在到染色体。详细组装结果见下表。
相比前一版本基因组,X染色体组装更加相对完整,而且Contig由183000条降低到72000条,gap也由159000减少到26000个。
重复序列
大型基因组重复是基因组组装中的主要混杂因素,因此,组装重复表示可以代表其质量,最终预测重复序列比例约52.2%,其中相对上一版本有164 Mb的新重复,占整个重复注释的10%左右,SINE数量增加了27.9 Mb,包括了83,637个Alu元件。在增加38.2 Mbp的LINE的序列中LTR最为值得关注。
为了分析Pan_tro_3.0中的节段性重复的表示,我们应用了两种替代方法
1)全基因组组装比较(WGAC);2)全基因组鸟枪序列检测(WSSD)。
基因预测
采用三个不同个体脑,心脏,肝脏和睾丸等转录组数据,最终预测得到77,858个转录本和20,373个编码基因。其中发现5,039个人类编码转录本在Pan_tro_2.1.4中预测的结果中移码突变,但不在Pan_tro_3.0中,相反,发现有674个基因存在于Pan_tro_3中,但不存在于Pan_tro_2.1.4中。
总结
总之,他们的这套混合组装方法,获得一个更完整的黑猩猩参考基因组。同时他们觉得这套装配方法应该容易适用于类似基因组结构的不同生物体。
参考文章
A 3-way hybrid approach to generate a new high quality chimpanzee reference genome (Pan_tro_3.0)
点击以下「关键词」,查看往期内容:
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史