第二代测序技术
首先简单的说一下二代测序技术,一般简称NGS,新一代测序技术。
1.建库
原理基本如下,将基因组序列采用鸟枪法打碎——俗称建库,然后采用凝胶电泳的方式将不同长度的片段分离,比如现在建库,短库一般建180bp,200bp或者300bp等。这里的180 和300 就是测序片段的长度。当然因为测序仪的读长是固定的,比如110,125,或者450等。公司现在采用的是220bp文库,读长为125bp,因为是双端测序,因此会有30bp的overlap区(这些是后期利用allpath-lg组装的必要条件)。然后大文库测序采用的时环化的技术,同样全基因组鸟枪之后,跑胶,跑出我们需要的相应的长度,比如3k,5k,7k,14k等。得到这些数据之后,再将其打断,然后测序,因为这里有一个环化的过程,所以这里的方向是RF(小文库是FR)。
2.过滤
小文库数据拿到手之后,一般要将质量较低的过滤掉,然后去掉序列两端的接头序列,而大文库处理过滤低质量和过滤掉两端接头序列之外,还要将中间的接头过滤掉。对于过滤大文库接头的程序,我推荐两个,一个是R语言写的Relox,这个要求你指定接头。还有一个就是NXtrim,美国冷泉港开发的一款专门过滤illumina公司的大文库数据接头。
3.评估
做完这些数据处理之后,一般还要对插入片段的评估。插入片段其实就是文库的大小。比如300bp的文库,插入片段就是300bp,但是我们都应该知道在目前的测序水平下,难免会有失误和误差,误差导致的后果是虽然插入片段是300bp,但是只能是平均值是300bp,存在一个方差,大概在几十bp左右。通常误差我们是可以接受的,而对于失误,我们就要把它给找出来,如果插入片段,严重偏离300bp,那么就意味着建库失败。通常我们采用的检验方法是将数据进行基因组组装,组装之后进行soap比对,然后画出比对的效率图。有人会问了难道只能组装完之后才能进行插入片段评估吗?我不知道其他的方式,只能说莫须有。
第三代测序技术
在我还没有完全理解二代测序数据之前,三代测序数据duang的一下子来到了我们面前,措手不及啊。不过三代测序数据原理也是蛮容易理解的。简单的介绍三代数据的特点读段长,超级长,20k以上了,好像。对于三代的原理和数据格式,百度一下,你就知道。我简单说下关于三代,我们要用到的软件。
1.纠错
第一个就是由于三代数据的随机错误很多,因此对数据进行纠错是绕不过去的,介绍两款软件,一款是pacbioToCa,一款是ectool。一个是利用二代数据纠错,一个是利用contig进行纠错。
2.组装
第二个软件就是三代数据的组装,推荐celera Assembly。当然肯定还有其他的牛X的软件,不过正应了高山老师的一句话,牛逼的软件,暂时都没有发表,因此我们很难拿到。对了,多一句嘴,官网说单独用三代组装的话,深度要到40x。
3.混拼
第三个软件是混拼,也就是二代数据和三代数据一起组装。软件为,不废话,官网要求深度为20x。
4.补洞
第四个软件是我喜欢的,就是利用三代数据的长片段来填补二代数据组装完的gao和连接contig为scaffold。推荐软件PBjerry。官网要求深度为5X。
生信是蓝海。