结构生物信息学之解析PDB文件

admin 117 2025-02-14 15:40:08 编辑

蛋白质数据库(Protein Data Bank)是一个收集实验测定生物大分子三维结构的数据中心,它给全世界的研究人员,教育学者,学生提供了共享结构数据的社区。除了坐标,每个存储在PDB的结构数据还包括分子名称,以及和二级结构信息,参考序列,可能还会包括配体分子和生物分子组装信息,以及数据收集和结构解析的细节。这些信息都会保存在蛋白结构文件(PDB)文件中。因此,这一期我们来给大家介绍一下PDB格式。生物信息中很多时候是在对文本进行处理,了解PDB的文件格式才能做后续的批量操作。PDB文件属于文本文件,也就是说它可以用普通的文本编辑器(UltraEdit)打开,打开后是有许多行组成,每一行都最多包含80列,每一列就是一个字符。每一行的前6列是记录名(record name),所有记录名是左对齐的,并用空格补齐,而且记录名必须与PDB格式官方文档中规定的名字一致。下面我们就介绍一些较为重要的记录名。HEADER是行信息,包括PDB字符代码,存储时间。TITLE是这个PDB文件的标题。COMPND是PDB中对大分子信息的描述。SOURCE是指生物大分子的表达来源,物种信息。EXPDTA是测定结构的实验方法。AUTHOR是作者名字。JRNL是和引用PDB文件的期刊名。REMARK是关于该PDB的各种详细的注释信息。MODRES记录的是结构中修饰残基的信息。SEQRES是蛋白结构的一级序列。HELIX和SHEET记录了蛋白的二级结构。CRYST1是蛋白结构的晶胞参数和空间群。ATOM和HETATM记录了结构原子坐标信息,也是PDB文件中最重要的信息。ATOM记录的是标准氨基酸和核酸的结构坐标,而HETATM记录的是其他类型原子的结构坐标。同时,ATOM/HETATM也会包括原子占有率和温度因子的信息。具体来说,对于每一行,ATOM/HETATM记录是这样定义的:第1-6列是“ATOM”或“HETATM”;第7-11列是原子的序列号;第13-16列是原子名称;第17列是多构象字符名;第18-20列是原子所在残基的名称;第22列是原子所在链标识符;第23-26是原子所在残基序列号;第27列是插入残基的代码;第31-38列是该原子的X坐标;第39-46是该原子的Y坐标;第47-54是该原子的Z坐标;第55-60列是原子占有率;第61-66列是原子的温度因子;第77-78列是原子的元素标识符;第79-80是原子的电荷。ATOM/HETATM的原子是从N端记录到C端,如果是核酸的话是从5‘到3’端。而在坐标信息后会有TER标识,表示结构坐标信息的末尾,其原子所在残基名称,所在链标,序列号都和C端最后一个原子相同。如下图所示:

PDB的存储者除了需要上传蛋白结构PDB文件外,还需要上传对应的结构因子文件,比如MTZ文件,也就是原子的电子云密度文件,在结构解析时用以模建原子坐标。该文件反应了蛋白晶体的衍射数据,是一个二进制文件,不能通过文本编辑,只有通过特定的蛋白结构软件才能查看。这一期,主要是让大家能了解PDB的文件格式,尤其是对于原子坐标的记录。这也能让大家更方便地进行批量处理。下一期我们将会给大家介绍蛋白结构预测相关的内容,这一部分也是结构生物信息学的一个重要问题,同时还会介绍蛋白结构预测软件的使用方法,敬请关注。参与结构生物信息学培训,请扫码课程报名二维码
上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: Nature:或是古病毒基因决定了性别,别再怪Y染色体了
相关文章