基因组测序基本原理讲解-行业观点-衍因科研协作平台

基因组测序基本原理讲解

admin 184 2025-02-10 12:00:44 编辑

首先简单的说一下二代测序技术，一般简称给NGS，新一代测序技术。

原理基本如下，将基因组序列采用鸟枪法打碎——俗称建库，然后采用凝胶电泳的方式将不同长度的片段分离，比如现在建库，短库一般建180bp，200bp或者300bp等。这里的180 和300 就是测序片段的长度。当然因为测序仪的读长是固定的，比如110，125，或者450等。公司现在采用的是220bp文库，读长为125bp，因为是双端测序，因此会有30bp的overlap区（这些是后期利用allpath-lg组装的必要条件）。然后大文库测序采用的时环化的技术，同样全基因组鸟枪之后，跑胶，跑出我们需要的相应的长度，比如3k，5k，7k，8k，10k，14k等。得到这些数据之后，再将其打断，然后测序，因为这里有一个环化的过程，所以这里的read比对基因组方向是RF（小文库是FR）。小文库数据拿到手之后，一般要将质量较低的过滤掉，然后去掉序列两端的接头序列，而大文库处理过滤低质量和过滤掉两端测序接头序列之外，还要将中间的接头（大文库接头）过滤掉。对于过滤大文库接头的程序，我推荐两个，一个是R语言写的Relox，这个要求你指定接头。还有一个就是NXtrim，美国冷泉港开发的一款专门过滤illumina公司的大文库数据接头。

做完这些数据处理之后，一般还要对插入片段的评估。插入片段其实就是文库的大小。比如300bp的文库，插入片段就是300bp，但是我们切胶时肯定不会切的那么精准，难免会有误差，误差导致的后果是虽然插入片段是300bp，但是只能是平均值是300bp，存在一个方差，大概在几十bp左右。通常误差我们是可以接受的，而对于失误，我们就要把它给找出来，如果插入片段，严重偏离300bp，那么就意味着建库失败。通常我们采用的检验方法是将数据进行基因组组装，组装之后进行soap比对，然后画出插入片段图。有人会问了难道只能组装完之后才能进行插入片段评估吗？我不知道其他的方式，只能说莫须有。

在我还没有完全理解二代测序数据之前，三代测序数据duang的一下子来到了我们面前，措手不及啊。不过三代测序数据原理也是蛮容易理解的。简单的介绍三代数据的特点读段长，超级长，20k以上了，好像。对于三代的原理和数据格式，百度一下，你就知道。我简单说下关于三代基本分析：

个就是由于三代数据的随机错误很多，因此对数据进行纠错是绕不过去的。

第二个就是三代数据的组装，最近发的falcon（nature method，2016）貌似可以试一试。当然肯定还有其他的牛X的软件，不过正应了高山老师的一句话，牛逼的软件，暂时都没有发表，因此我们很难拿到。对了，多一句嘴，官网说单独用三代组装的话，深度要到40x。

第三是混拼，也就是二代数据和三代数据一起组装。

第四个就是利用三代数据的长片段来填补二代数据组装完的gap和连接contig为scaffold。推荐软件PBjerry。官网要求深度为5X。

生信是蓝海。

NC重磅！CellChat：单细胞通讯分析工具！

805 2024-12-18

基因组测序基本原理讲解

SMART蛋白质结构域注释的20年(附用法）

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

单酶切和双酶切的区别，了解这两者的特点

如何通过智能科研工具提升研究效率与数据分析助力科研创新

SMART蛋白质结构域注释的20年(附用法）

深度学习与生物医药AI大模型如何重塑药物研发的未来？

如何在NCBI上查找基因的CDS序列

最新文章

分子生物学名词解释核心概念与蛋白质组学解读

分子生物学实验技术：体系分类、优化策略与应用案例

分子生物学试剂：保存条件、失效判断与应用指南

《医学分子生物学杂志》学术前沿与投稿指南

分子生物学实验的核心技术与应用

现代分子生物学的主要研究领域

分子生物学技术的主要分类与应用场景

生物化学与分子生物学的学科概述与核心研究内容

分子生物学软件的核心功能与优势

分子生物学工具：核心功能、应用场景与发展趋势解析

热门标签