结构生物信息学之蛋白结构预测

admin 17 2025-01-31 编辑

对蛋白功能的认知往往是从获得蛋白的3D结构开始的。从结构上,我们不仅可以确定一些蛋白的基本功能,还可以推测蛋白的配体特异性,推动靶向蛋白的小分子药物的设计,更重要的是利用结构知识可以进行大分子的组装分析,从而在更高的维度理解蛋白组学。由宏基因组学驱动的大规模基因组测序已经产生了超过8000万条单独的基因序列,并且还在持续不断的快速增长。然而,根据蛋白结构数据库(Protein Data Bank: PDB)的统计,目前由实验确定的蛋白结构大约有15万个,远远低于基因组序列数目。同时,蛋白结构测定又是一项非常耗时且复杂的技术,根据结构基因组中心(Structural Genomics Center)的统计,通过实验从蛋白的一级序列获取3D结构的成功率仅为3%-5%。因此,利用计算(in silico)的方法预测蛋白结构已经成为一种可替代的方案。

蛋白结构预测一般可以分为两种策略。一种叫做依赖模板的预测(template-based modeling),该方法包括同源建模和穿线法(threading)。同源建模的理论基础是序列相似的蛋白具有相似的三维结构。比如,如果一个蛋白家族中的一个成员的结构已经被测定,那么该家族的其他成员的结构可以通过序列比对来进行建模。通常,序列上小的变化在结构上也只会产生小的变化。并且,同一家族的结构的保守度要高于氨基酸序列。因此,如果两个序列在序列上是相似的,那么我们是可以推断它们在结构上也是相似的。依赖模板的另一种方法叫做穿线法,它的理论基础是两个序列不相似的蛋白可以具有相同的结构。虽然结构数据在增长,但是目前已知的蛋白折叠模式只有不到1300个,且自从2008年后就没有增加过。因此穿线法就是通过把序列比对到折叠拓扑结构库,找出最为匹配序列的折叠模式,然后把分隔的氨基酸串接起来的方法。除了依赖模板的方法,还有一种是从头预测(ab initio modeling),也就是完全根据序列来模建蛋白结构。通常来说,从头预测会在一个已经设计好的能量函数的指导下进行构象搜索,而最终的结构会从中选取。因此一个优秀的从头预测方法应该具有以下3个特点:设计一个准确的能量函数,它能够将热动力学上最稳定的状态作为蛋白的天然构象;具有从多个构象中快速找出低能构象的高效搜索方法;具有能够从多个构象中找出最接近于天然构象的方法。根据物理势能,蛋白结构中的原子视作相互作用的粒子,通过解析牛顿运动定律,对蛋白进行折叠。目前,较为成功的从头预测方法都会充分利用已有结构的知识。首先,从蛋白结构抽取的局部结构片段可以帮助降低自由度和构象搜索的熵效应,但同时保证了天然结构的正确度。其次,大规模统计分析已解析的蛋白结构得到的势能函数可以较为准确反映各能量项之间复杂的关系。经过了十几年的发展,对于蛋白大小为100-150个氨基酸的蛋白,从头预测方法的准确率已经大幅提高。而值得一提的是,去年由DeepMind团队开发的深度学习方法AlphaFold在全球蛋白质结构预测竞赛(CASP)中取得第一名,在43个蛋白中,拿到25个单项最佳。AlphaFold使用神经网络对氨基酸对之间的距离,以及连接它们的化学键之间的角度打分,根据这些打分函数,可以找出蛋白的势能全景图,然后用新的片段进行替换来提高结构的打分,最后用梯度下降逐步优化结构。

结构预测的开源在线工具非常多,每年在Bioinformatics和Nucleic Acids Research上也都会发布一些新方法。为了能方便读者使用,我们以I-TASSER为例,具体介绍一下如何使用。I-TASSER是由密歇根大学张阳课题组开发的在线结构预测的工具,其2015年发布在线服务版本的文章已经被引300多次,而在同一年,其发布了I-TASSER独立版本的文章,目前已经被引超过2000次,I-TASSER页面如下图:

在使用I-TASSER之前,必须要用学术邮箱进行注册,注意是学术邮箱,不是网易163或QQ邮箱,注册完后会在邮箱收到密码。用户提交任务需要输入蛋白序列,邮箱以及密码。

如果用户有指定模板的话,可以在Option I下指定模板,格式为PDB ID(小写):Chain ID,如下图:

其余的参数一般都可以默认,然后点击Run-I-TASSER按钮,即可提交任务,一般会等待两三天才会出结果,如果觉得等的时间太长的话可以下载单独的I-TASSER软件在自己的机器上跑,下载页面在首页上方的Download按钮。最后给出的预测结果注释非常多,包括二级结构预测结果,溶剂可及表面积,预测的温度因子等,如下图:

下面还会给出打分最高的5个结构:评价指标包括C-score,TM-score,C-score代表置信度,TM-score是反映两个结构相似度的打分。最后,还有对蛋白功能的预测。

总之,I-TASSER的交互界面对于实验工作者非常友好,如果有需要的同学可以考虑使用。下一期我们将会介绍分子对接相关的内容,敬请关注。了解更多结构生物信息学知识可以扫码参加我们的课程

 

结构生物信息学之蛋白结构预测

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 不知生信挖掘和实验怎么结合,看这篇就够了
相关文章