基因组测序基本原理讲解

admin 62 2025-02-10 12:00:44 编辑

首先简单的说一下二代测序技术,一般简称给NGS,新一代测序技术。

原理基本如下,将基因组序列采用鸟枪法打碎——俗称建库,然后采用凝胶电泳的方式将不同长度的片段分离,比如现在建库,短库一般建180bp,200bp或者300bp等。这里的180 和300 就是测序片段的长度。当然因为测序仪的读长是固定的,比如110,125,或者450等。公司现在采用的是220bp文库,读长为125bp,因为是双端测序,因此会有30bp的overlap区(这些是后期利用allpath-lg组装的必要条件)。然后大文库测序采用的时环化的技术,同样全基因组鸟枪之后,跑胶,跑出我们需要的相应的长度,比如3k,5k,7k,8k,10k,14k等。得到这些数据之后,再将其打断,然后测序,因为这里有一个环化的过程,所以这里的read比对基因组方向是RF(小文库是FR)。小文库数据拿到手之后,一般要将质量较低的过滤掉,然后去掉序列两端的接头序列,而大文库处理过滤低质量和过滤掉两端测序接头序列之外,还要将中间的接头(大文库接头)过滤掉。对于过滤大文库接头的程序,我推荐两个,一个是R语言写的Relox,这个要求你指定接头。还有一个就是NXtrim,美国冷泉港开发的一款专门过滤illumina公司的大文库数据接头。

做完这些数据处理之后,一般还要对插入片段的评估。插入片段其实就是文库的大小。比如300bp的文库,插入片段就是300bp,但是我们切胶时肯定不会切的那么精准,难免会有误差,误差导致的后果是虽然插入片段是300bp,但是只能是平均值是300bp,存在一个方差,大概在几十bp左右。通常误差我们是可以接受的,而对于失误,我们就要把它给找出来,如果插入片段,严重偏离300bp,那么就意味着建库失败。通常我们采用的检验方法是将数据进行基因组组装,组装之后进行soap比对,然后画出插入片段图。有人会问了难道只能组装完之后才能进行插入片段评估吗?我不知道其他的方式,只能说莫须有。

在我还没有完全理解二代测序数据之前,三代测序数据duang的一下子来到了我们面前,措手不及啊。不过三代测序数据原理也是蛮容易理解的。简单的介绍三代数据的特点读段长,超级长,20k以上了,好像。对于三代的原理和数据格式,百度一下,你就知道。我简单说下关于三代基本分析:

个就是由于三代数据的随机错误很多,因此对数据进行纠错是绕不过去的。

第二个就是三代数据的组装,最近发的falcon(nature method,2016)貌似可以试一试。当然肯定还有其他的牛X的软件,不过正应了高山老师的一句话,牛逼的软件,暂时都没有发表,因此我们很难拿到。对了,多一句嘴,官网说单独用三代组装的话,深度要到40x。

第三是混拼,也就是二代数据和三代数据一起组装。

第四个就是利用三代数据的长片段来填补二代数据组装完的gap和连接contig为scaffold。推荐软件PBjerry。官网要求深度为5X。

生信是蓝海。

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 看完Gigascience的6篇基因组文章,我发现了惊天的大秘密
相关文章