多组学整合的实li讲解-行业观点-衍因科研协作平台

多组学整合的实li讲解

admin 169 2025-01-25 09:30:43 编辑

鉴于上次有读者要求具体讲一讲多组学整合，拖延症晚期的文体委员准备实力…额实例讲解一下具体的方法。老师，我想学多组学整合

最近看到一篇比较古老的文章Novel gene and gene model detection using a whole genome open reading frame analysis in proteomics，2006年发表在Genome Biology上。找到这篇文章，一方面是觉得它做的很有趣，另一方面就是它内容逻辑很清晰，即便是文体委员也能感受到来自科学大佬的关爱。

文章主要想做的是结合蛋白质谱的方法来鉴别新的基因组编码区域，包括转录产物，从而改善基因注释。

为了不错过每个可能编码的区域，作者将整个基因组都使用six reading frames的方法进行了翻译，得到了a significant number of protein sequences（毫不怀疑这个数量级）。

大约懂一点的旁友就会知道，这种方法真的是非常非常非常理论的，脱离了外显子、内显子区域的约束，找到的开放阅读框（ORF）一万个里有一个真的就要偷笑了。

但是！这也恰好是作者比较大胆的地方，他很清楚这种方法找到的ORF具有非常大的噪音，所以他后边选择了非常非常谨慎的方法来控制ORF的质量。

首先为了控制ORF的质量，作者将所有翻译得到的ORF作为蛋白库，然后用一套蛋白质谱数据进行搜库操作（软件是喜闻乐见的X!tandem），试图找到有哪些ORF可以得到蛋白层面的支持。

这里普及下我吃饭的家伙——蛋白质谱，蛋白经过水解酶切后进入仪器，经过电离打碎后，就可以得到每个小肽片段的谱图（现在多是二级谱图）。

谱图示意

搜库策略一般是将已知蛋白库中的序列进行理论酶切后生成理论的谱图，通过将实验谱图和理论谱图进行比较就可以得到一个评分，用以衡量两个谱图的匹配程度。一旦认为匹配上，就表示该谱图所对应的就是该肽段序列，来自该蛋白。

经过搜库筛选后，作者做了很多质控方面的工作来确保ORF的可靠性。除了设定谱图得分阈值、要求谱图只匹配一个肽段序列等常规操作外，还要求了匹配上的肽段序列只出现在一个ORF中，一个ORF必须要有两个肽段证明，ORF必须要和一个已知基因有重叠并且confidence score >= 0.95，经过层层层层的控制，最后得到的ORF只有282个，来自2314条肽段的支持（绝对可以说是万里捞一）。【详情见图一】

传说中的图一

而后就是对于2314条肽段来源的探索了。排除匹配到多个基因的影响、排除掉NR protein Database巨库中已有的肽段后，剩余了627条基因内肽段，作者将其分为了外显子内肽段（intra-exonic peptides，IEs）、外显子重叠肽段（overlapping exons，OEs）和外显子无关肽段（non-exonic, NEs）。【详情见图二】

传说中的图二

最后，作者搜寻了转录组方面的证据（用的cDNA），将得到的肽段在EST （expressed sequence tag） library中进行搜索，发现了很多OE和NE有EST hits，也就是说这些肽段正是可能的新的编码区域。

其实这项工作再往深做一点是可以找新基因的。正如作者在最后说的，如果ORF不用要求与已知基因区域重叠，则很有希望可以通过这种方法找到新基因。

这篇文章利用蛋白组和转录组来补充基因组的注释信息，在多组学整合层面是个很不错的例子。另外，这篇文章给我的总体感觉就是胆大心细，撒了一个大网，但是收网的时候小心谨慎，有理有据，给人无限的遐想和启发。

最后献上一个无处安放的表情包：

欢迎关注

一个物种一个家

TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue

基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图

舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史

NC重磅！CellChat：单细胞通讯分析工具！

805 2024-12-18

多组学整合的实li讲解

SMART蛋白质结构域注释的20年(附用法）

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

单酶切和双酶切的区别，了解这两者的特点

如何通过智能科研工具提升研究效率与数据分析助力科研创新

SMART蛋白质结构域注释的20年(附用法）

深度学习与生物医药AI大模型如何重塑药物研发的未来？

如何在NCBI上查找基因的CDS序列

最新文章

分子生物学名词解释核心概念与蛋白质组学解读

分子生物学实验技术：体系分类、优化策略与应用案例

分子生物学试剂：保存条件、失效判断与应用指南

《医学分子生物学杂志》学术前沿与投稿指南

分子生物学实验的核心技术与应用

现代分子生物学的主要研究领域

分子生物学技术的主要分类与应用场景

生物化学与分子生物学的学科概述与核心研究内容

分子生物学软件的核心功能与优势

分子生物学工具：核心功能、应用场景与发展趋势解析

热门标签