鉴于上次有读者要求具体讲一讲多组学整合,拖延症晚期的文体委员准备实力…额实例讲解一下具体的方法。老师,我想学多组学整合
最近看到一篇比较古老的文章Novel gene and gene model detection using a whole genome open reading frame analysis in proteomics,2006年发表在Genome Biology上。找到这篇文章,一方面是觉得它做的很有趣,另一方面就是它内容逻辑很清晰,即便是文体委员也能感受到来自科学大佬的关爱。
文章主要想做的是结合蛋白质谱的方法来鉴别新的基因组编码区域,包括转录产物,从而改善基因注释。
为了不错过每个可能编码的区域,作者将整个基因组都使用six reading frames的方法进行了翻译,得到了a significant number of protein sequences(毫不怀疑这个数量级)。
大约懂一点的旁友就会知道,这种方法真的是非常非常非常理论的,脱离了外显子、内显子区域的约束,找到的开放阅读框(ORF)一万个里有一个真的就要偷笑了。
但是!这也恰好是作者比较大胆的地方,他很清楚这种方法找到的ORF具有非常大的噪音,所以他后边选择了非常非常谨慎的方法来控制ORF的质量。
首先为了控制ORF的质量,作者将所有翻译得到的ORF作为蛋白库,然后用一套蛋白质谱数据进行搜库操作(软件是喜闻乐见的X!tandem),试图找到有哪些ORF可以得到蛋白层面的支持。
这里普及下我吃饭的家伙——蛋白质谱,蛋白经过水解酶切后进入仪器,经过电离打碎后,就可以得到每个小肽片段的谱图(现在多是二级谱图)。
谱图示意
搜库策略一般是将已知蛋白库中的序列进行理论酶切后生成理论的谱图,通过将实验谱图和理论谱图进行比较就可以得到一个评分,用以衡量两个谱图的匹配程度。一旦认为匹配上,就表示该谱图所对应的就是该肽段序列,来自该蛋白。
经过搜库筛选后,作者做了很多质控方面的工作来确保ORF的可靠性。除了设定谱图得分阈值、要求谱图只匹配一个肽段序列等常规操作外,还要求了匹配上的肽段序列只出现在一个ORF中,一个ORF必须要有两个肽段证明,ORF必须要和一个已知基因有重叠并且confidence score >= 0.95,经过层层层层的控制,最后得到的ORF只有282个,来自2314条肽段的支持(绝对可以说是万里捞一)。【详情见图一】
传说中的图一
而后就是对于2314条肽段来源的探索了。排除匹配到多个基因的影响、排除掉NR protein Database巨库中已有的肽段后,剩余了627条基因内肽段,作者将其分为了外显子内肽段(intra-exonic peptides,IEs)、外显子重叠肽段(overlapping exons,OEs)和外显子无关肽段(non-exonic, NEs)。【详情见图二】
传说中的图二
最后,作者搜寻了转录组方面的证据(用的cDNA),将得到的肽段在EST (expressed sequence tag) library中进行搜索,发现了很多OE和NE有EST hits,也就是说这些肽段正是可能的新的编码区域。
其实这项工作再往深做一点是可以找新基因的。正如作者在最后说的,如果ORF不用要求与已知基因区域重叠,则很有希望可以通过这种方法找到新基因。
这篇文章利用蛋白组和转录组来补充基因组的注释信息,在多组学整合层面是个很不错的例子。另外,这篇文章给我的总体感觉就是胆大心细,撒了一个大网,但是收网的时候小心谨慎,有理有据,给人无限的遐想和启发。
最后献上一个无处安放的表情包:
欢迎关注
一个物种一个家
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史