广义上,生物信息学(Bioinformatics)包含了对生物信息的获取、加工、储存、分析和解释等,并综合运用数学、计算机科学和生物学的各种工具,来阐明大量生物学数据所包含的生物学意义。
l 生物信息学研究的具体内容
把基因组DNA序列信息分析作为源头,找到基因组中代表蛋白质和RNA基因的编码区,阐明非编码区的信息实质,破译隐藏在DNA序列中的语文规律;同时,归纳、整理与基因组遗传语文信息释放及其调控相关的转录谱和蛋白质谱数据,从而认识代谢、发育、分化、进化的规律。

l 生物信息学具有三个方面的科学基础
Ø 发达的、复杂的、可以相互交流的数据库系统
Ø 强有力的创新算法和软件
Ø 自动化、大规模、高通量的生物学研究方法与平台技术
分子生物信息数据库的种类
1. 基因组数据库
2. 核酸和蛋白质一级结构(序列)数据库
3. 生物大分子(主要是蛋白质)空间结构数据库
4. 二次数据库
二次数据库
对一次数据库以及文献等数据进行分析、整理、归纳、注释
n 二次数据库的种类
1. 以核酸数据库为基础:
真核生物启动子数据库EPD
克隆载体数据库Vector
基因转录调控因子数据库TransFac
2. 以蛋白质序列数据库为基础:
蛋白质功能位点数据库Prosite
蛋白质序列指纹图谱数据库Prints
同源蛋白家族数据库Pfam
同源蛋白结构域数据库Blocks
n 二次数据库的种类
3. 以具有特殊功能的蛋白质为基础:
免疫球蛋白数据库Kabat
蛋白激酶数据库PKinase
4. 以三维结构原子坐标为基础:
蛋白质二级结构构象参数数据库DSSP
已知空间结构的蛋白质家族数据库FSSP
已知空间结构的蛋白质及其同源蛋白数据库HSSP
n 两类数据库的特点:
n 一次数据库
1. 数据量大,更新速度快,用户面广
2. 需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。
例如,欧洲生物信息学研究所用Oracle数据库软件管理、维护核酸数据库EMBL;基因组数据库GDB的管理运行基于Sybase数据库管理系统。
n 两类数据库的特点:
n 二次数据库
1. 容量小,更新速度较慢,可以不用大型商业数据库软件支持。
2. 许多二次库的开发基于Web浏览器。其优点是使用方便,使用者不需要有丰富的计算机专业知识。
序列数据库是分子生物信息数据库的重要组成部分,包括核酸和蛋白质两类,以核苷酸碱基顺序和氨基酸残基顺序为基本内容,并附有注释信息。
n 三大核酸数据库
GenBank,由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)维护。
n 三大核酸数据库
EMBL数据库是由欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)创建,并因此得名,现由欧洲生物信息学研究所(European Bioinformatics Institute, EBI)维护。
n 三大核酸数据库
DDBJ(DNA Date Base of Japan)由日本国家遗传学研究所(National Institute of Genetics, NIG)维护。
n GDB 人类基因组数据库
1)基因组结构数据:
基因单位、PCR位点、细胞遗传标记、EST 、
叠连群、重复片段等。
2)基因组图谱:
细胞遗传图、连锁图、放射杂交图、转录图等。
3)基因多态性数据:等位基因等。
4)与其他数据库的超文本链接:
GenBank、EMBL、遗传疾病数据库OMIM、
MedLine等。
喜欢就加关注吧!