DNA 甲基化数据分析流程

admin 55 2025-02-09 10:24:44 编辑

DNA 甲基化数据分析流程(bismark + methylKit)

DNA甲基化在维持细胞正常功能、传递基因组印记,胚胎发育、肿瘤发生等方面发挥重要作用,目前已经成为表观遗传学和表观基因组学的研究热点。针对不同的研究目的,基于高通量测序的甲基化研究方法也是日新月异,色彩缤纷,本文简单总结一下比较常规的全基因组DNA甲基化测序数据的分析流程。基本流程分为两个步骤,mapping(bismark软件)+ 全基因组水平差异甲基化分析(methylKit软件)。

 Mapping

bismark是目前WGBS或RRBS产生的甲基化数据最受欢迎的软件之一,操作简单,功能强大,bismark主要由3个步骤组成。

    a)bismark_genome_preparation. 使用Bisulfite处理样品DNA是进行DNA甲基化分析的一种常用方法,处理后会使未发生甲基化的胞嘧啶(Cytosine)转换为胸腺嘧啶(Thymine),导致按照常规的比对方法无法将测序得到的reads比对到参考基因组上。软件Bismark首先会对参考基因组进行转换,使甲基化数据与参考基因组具有可比性。

Usage,bismark_genome_preparation [options] <path_to_genome_folder>

    b). bismark(alignment 步骤),这一步会对测序数据(每一条reads),做与参考基因组同样的处理,然后把reads向基因组上mapping,这一步会得到比对结果bam/sam文件

  bismark [options] <genome_folder> {-1 <mates1> -2 <mates2> |<singles>}

    c). Bismark bismark_methylation_extractor,,这是bismark的最后一步,根据bam/sam文件提取每条reads中每个C位点的甲基化状态。结果会根据C位点所在的序列context分别存在CpG_context_bismark.txt,CHG_context_bismark.txt,CHH_context_bismark.txt这三个文件中。同时根据CpG_context_bismark.txt报告的CpG甲基化信息,bismark会计算出全基因组内每个CpG位点的甲基化水平,存放在bismark.CpG_report.txt文件中。

USAGE: bismark_methylation_extractor [options] <filenames>

运行完上述3个步骤,我们就获得了最为基本的DNA甲基化水平的信息,可以以此为基础,进行下游的分析,例如,对比不同样本之间的差异甲基化,等等。

2.差异甲基化分析(methylKit 软件)

methylKit是基于R语言开发的程序包,对于熟悉R语言的小伙伴来说,同样是简单粗暴,功能强大。(此处略过其安装过程,可参考https://github.com/al2na/methylKit)

    a). 数据读入,methylKit可以利用其中的read.bismark函数直接读取bismark产生的测序数据(用法如图所示),不过并不建议这么做,因为R语言运行速度较慢,读取sam文件会非常耗时。我们可以直接根据bismark产生的bismark.CpG_report.txt文件,手动写一个脚本,把数据处理成methylKit需要的格式(如图)

    然后利用read函数读取文件内容(如图)

b)绘制数据的基本统计图

c)所有样本合并成同一个数据集

d)统计样本之间的相关性

e)样本聚类分析

f)PCA分析

g) 差异甲基化分析(可以以位点为单位或者以一定长度的窗口为单位)

以位点为单位:

以窗口为单位,首先要整理出每个样本对应同一个窗口的DNA甲基化水平,可以自己定义步长和窗口大小。

然后一样的过程计算差异甲基化的窗口

此时要注意把参数meth 换为tiles。

h)对差异甲基化区域进行注释

methylKit包可以帮助我们完成所有的关于DNA甲基化数据的基本分析,是不是很强大。而下游更具体的分析,因为每个人的关注点不同,因此没有一个统一的流程,需要根据自己的需求自行设计方案。


欢迎关注

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 一步一步教你构建进化树(ML树)
相关文章