ploidyNGS:可视化探索基因组倍性

了解一个物种或者细胞的基因组的倍性,在进化、群体、基因组研究上有重要的意义。比如组装多倍体物种的基因组,需要了解它的倍性,评估组装的难度。但是,怎样检测或者推算基因组的倍性呢?通常在实验室用流式细胞实验就可以了。但是如果你恰好做了基因组survey,有NGS数据在手头,那你完全可以用好这些数据,做一下倍性分析。
目前已经有一些流程利用NGS数据推算基因组的倍性,比如:AbsCN-seq、CLImAT或者ConPADE。但是这些流程或者软件目前都有一些明显的短板。AbsCN-seq除了mapping数据外,还需要全外显子的数据。CLImAT基于MATLAB,不能免费使用。ConPADE是专门为高等多倍体植物开发的,对mapping的质量很敏感,容易引起估算偏差。
最近有个团队开发了一款流程ploidyNGS,专门针对二代测序数据,估算基因组的倍性。PloidyNGS的原理很简单,就是统计每个等位基因点上的reads支持比例。比如,对于单倍体来说,除了测序错误的reads外,所有的reads都支持一个allele。对于二倍体物种来说,取决于杂合度。高度纯合的话,所有的正确测序reads都会支持一个allele,杂合度高的物种,大约一半reads支持一个allele,另一半支持另外一个allele。对于三倍体的物种来说,如果是多等位基因(比如ABC)的话,每个allele的支持率为1/3,如果是双等位基因(比如AAB)的话,2/3的reads支持一个allele,剩下的1/3支持另外一个allele。以此类推,详见Table1.
知道了原理,接下来说说具体怎么做。
先是把reads mapping到参考基因组(做survey的时候,建议做一个低深度的基因组组装版本),过滤掉单allele位点及过高频率的allele(比如95%),然后按照每个allele的reads支持率排序,从最低到最高排序,分别被标记为fourth、third、second、first。然后用ggplot作直方图。
利用模拟数据和测试数据,研究者对真菌的基因组做了倍性评估。如Figure1所示,横坐标是allele的频率,纵坐标是多态性位点数目。A图是单倍体基因组统计图,有两个峰值点,分别在5%和95%左右,前者是测序错误造成的,而后者是单倍体基因组的最高频率单态峰。B图有四个峰值,分别在5%、50%、50%及95%。5%是测序错误,两个50%,是杂合多态性峰,95%则是最高频率的单态峰。这些结果和Table1的理想比例值较为一致。
最后再附上三倍体和四倍体的图像,供参考(Figure2,Figure3),看看每个峰值是不是和Table1给出的理想比例值一致呢?
Figure 2 the histogram of triploid genome
Figure 3 the histogram of tetraploid genome
PloidyNGS流程用python和R串写而成。
下载路径点这里:https://github.com/diriano/ploidyNGS
参考文献:
Renato et.al. ploidyNGS: Visually exploring ploidy with Next Generation Sequencing data.
转载自薛猫-柳叶刀的新浪博客http://blog.sina.com.cn/s/articlelist_1296300802_0_1.html
欢迎关注