37什么是DNA甲基化
DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。
38什么是基因组注释?

基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。
39什么是Q30?
Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。
Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。
40测序数据的PF data/PF reads是什么意思?
PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。
对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。
PF是国际公认的质检标准。
数据质量标准?
对于哺乳动物基因组重测序、外显子测序,数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,对照Lane的数据质是Q30的比例高于80%。
一般情况下:
哺乳动物基因组重测序、外显子测序,GC比例在40%左右,Q30的比例是80~95%
RNA-seq,GC比例在50%左右,Q30的比例是~80%。如果Poly(A)特别多的情况下,Q30会更低一些
SmRNA-seq,因为有许多的read读通之后,只剩下一串的A,质量会更低,我们的实验结果%Q30在70~75%
41测序中的Duplication是什么,如何避免,一般会有多少Duplication?
所谓Duplication是指起始与终止位置完全一致的片段。
引起Duplication的主要原因是因为在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会是Duplication。次要原因是正巧两个片段的头和尾的位置完全一致。
一般通过控制PCR的循环数来控制Duplication。一般控制PCR的循环次数在10~12个循环。
42测序的插入片段一般是100bp到600bp.
因为Hiseq测序过程中有一个桥式PCR的过程。如果插入片段过长,测桥式PCR产生的Cluster就会太大,而且光强也会减弱。所以插入片段的长度是有限制的。