二、GO分析
1、基因本体(gene ontology)
基因本体(gene ontology),简称GO,是一种描述基因或基因产物基本特性的词汇,由基因本体协会(Gene Ontology Consortium)开发。GO数据库旨在建立注释基因和蛋白质知识的标准词汇体系,使各数据库中基因产物功能描述相一致,随着研究的深入,基因本体语义词汇也在不断更新。这里介绍如何使用GO数据库的AmiGO搜索本体论术语及其相关的注释。
1.1、AmiGO的基本使用说明
检索GO数据库通常先进入AmiGO的首页(Figure 6.20)。
点击“Browse”,进入浏览页面,页面上方的Filter tree view可根据本体类型、数据来源、物种信息等条件对结果进行过滤,从而提高检索的精确性(Figure 6.21)。
Figure 6.21
在GO数据库中,每条记录都有一个数据标识号GO:XXXXXX和对应的GO术语(term,又叫语义)。GO语义包括cellular_componet (细胞组分)、molecular_function (分子功能)及biological_process (生物学过程)三方面内容(Figure 8.2)。细胞组分是指基因产物在细胞中的位置,如核仁、核糖体、内质网等;分子功能描述基因或基因产物的分子生物学活性和功能,如催化活性或结合活性;生物学过程通常由多种分子功能有序组成,如有丝分裂或嘌呤代谢等。
Term之间有类似树的组织结构,点击每行前面的便展开包含于该项的所有term,同时变为,每行/后面的标志表示该term与其父结点之间的关系。结点的关系主要有三种:“is a”、“part of”和“regulates”,其中表示关系is a,表示关系part of ,表示关系regulates,表示正调控,表示负调控。(Figure 6.22)
Figure 6.22
点击任一行,能够在新窗口中显示该term的详细信息,包括定义及用该term注释的基因产物的链接。例如:点击“stem cell maintenance”,得到Figure 6.23。
Figure 6.23
如果想知道用term “stem cell maintenance”注释的所有基因产物,点击图中的“681 gene product associations”即可。
页面中间“Term Neighborhood for stem cell maintenance”部分有几个选项卡,“Ancestors and Children”可以了解GO数据库中此term的所有父结点和子结点(Figure 6.24);“Inferred Tree View”记录了这些结点所处的位置和结点之间的关系,即查询术语与其他术语之间的关系,呈阶梯状分布(Figure 6.25);“Graph View”可以更清晰地显示各术语之间复杂网状结构,既有上下隶属关系,也存在平行关系(Figure 6.26),GO图是一个有向无环图,具有树的性质,但不同的是,GO图中的结点不但可能有多个子结点,也可能具有多个父结点,且与不同的父结点具有不同的关系。
Figure 6.24
Figure 6.25
Figure 6.26
2.2、用关键词检索GO数据库
直接在检索框输入待查基因或蛋白质名称或GO号或GO term即可,如果检索的基因或蛋白质存在别名,勾选“exact match”,要求反馈的结果与输入的名字完全匹配。
我们以神经源性分化因子6(NEUROD6)为例。在检索框中输入“NEUROD6”并勾选“gene and proteins”和“exact match”(Figure 6.27)。
Figure 6.27
检索得到六个不同物种中的神经源性分化因子6(Figure 6.28),以第一行为例,首先是基因的名字,右边“9 associations”为该基因注释的术语条目数,最右边是物种信息。可通过页面上方的“Filter search results”根据基因产物的类型、数据来源、物种信息等条件对结果进行过滤,从而提高检索的精确性,这里不过滤。
Figure 6.28
点击任意一条查看详细信息,这里以人的NEUROD6为例。Figure 6.29显示了该基因产物的基本信息,包括类型、物种、别名、来源和序列。
Figure 6.29
点击Information栏上方的“7 term associations”查看注释了该基因产物的7条术语(Figure 6.30)。例如,第一条记录:“GO:0030154:cell differentiation”,有22826个基因产物与细胞分化有关。
注:一种基因产物可以分别具有分子功能、生物过程和细胞组件三种注释信息,它们也可能在某一个方面有多种性质,也就是说基因产物与GO term之间不是一对一的关系。如细胞色素c,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体内膜上。Figure 6.30
点击“cell differentiation”,在“Term Information”中描述了细胞分化术语的基本信息,包括树形及与父结点、子节点关系同上,不再详述。
2.3、用序列检索GO数据库
对于未知基因名的序列,可以用序列直接检索GO数据库。点击AmiGO首页上方的“BLAST”,进入检索界面。在检索框输入氨基酸或核酸序列或上传序列文件,检索工具能自动识别并相应地选择BLASTP或BLASTX来与数据库中的序列进行比对。以大肠杆菌DNA聚合酶Ⅱ基因polB为例,结果页面(Figure 6.31)的“High Scoring Gene Products”栏内显示基因产物的名称、物种信息、p值。点击其中某行,可查询结果的详细信息,有兴趣的同时自己尝试,这里不再赘述。
Figure 6.31
GO的局限性:
GO不是基因序列或基因产物数据库,它强调基因产物在细胞中的功能。
GO是对基因功能的注释,不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。
GO不对生物学的每个方面进行描述,如功能域的结构、进化特性等。
在芯片数据中引入GO注释,通常可以揭示出为什么一个特定组的基因拥有相似的表达模式。共表达的基因可能编码在同一个生物过程中出现的基因产物,或定位于同一个细胞部位。如果未知基因和一些已被GO过程术语相似地注释了的基因共表达,那么这个未知基因很有可能在同一个过程中发挥功能,可据此进行基因功能的预测。
2、基因集功能富集分析(Gene Set Enrichment Analysis)
一组基因注释的结果是得到大量的功能结点。这些功能具有概念上的交叠现象,导致分析冗余,不利于进一步的精细分析,所以我们希望对得到的功能结点加以过滤和筛选,以便获得更有意义的信息。目前最常用的方法是基于GO或KEGG的富集分析,旨在寻找感兴趣基因集显著富集的GO结点或KEGG通路,有助于指导进一步深入细致的实验研究。
DAVID是目前应用较为广泛的基因集分析综合工具,不但提供基因富集分析,还提供基因间ID的转换、基因功能的分类等。(Figure 6.32)
Figure 6.32
点击“Functional Annotation”,提交基因集,选择基因标识名和基因集类型,点击“Submit List”,稍等片刻,得到注释结果摘要,包括多种注释数据(Figure 6.33、Figure 6.34)。
注:如果使用我提供的ecoli基因,识别名选择“OFFICIAL_GENE_SYMBOL”,在随后的页面左侧选择物种“Escherichia coli”,点击“Select species”,即可得到结果(Figure 6.33)。使用sce基因,识别名选择“ENSEMBL_GENE_ID”。
Figure 6.33
Figure 6.34
这里以Gene_Ontology的“GOTERM_BP_FAT”为例,点击chart图标,如.35所示,可以看到,按照默认设置,富集分析找到374个具有统计显著性的GO Term。可点击Options设置显示格式、计算各种统计检验值,一般用FDR检验富集的显著性,小于0.05即为显著富集,点击Rerun Using Options得到重新设置参数后的富集结果,点击“Download File”下载结果。
Figure 6.35
Figure 6.36
GO数据库的AmiGO也可进行基因富集分析(Figure 6.37),有兴趣的同学可以自己尝试。
http://amigo.geneontology.org/cgi-bin/amigo/term_enrichment?session_id=
Figure 6.37
具体参照AmiGO manual http://wiki.geneontology.org/index.php/AmiGO_Manual:_Term_Enrichment