GO功能富集

admin 80 2025-02-10 14:16:44 编辑

由于生物学定义混乱的原因,不同的生物学数据库可能会使用不同的术语,现今的生物学家浪费了太多的时间和经历在搜寻生物信息上,为了解决这个问题,基因本体联合会(Gene Onotology Consortium)建立了GO(gene ontology)数据库,目的是通过利用统一化的、结构化的语言建立一个适用于不同物种的、对基因和蛋白质功能进行定义和描述的,并且能够随着研究的不断深入而更新的语言词汇标准。这个项目从1988年对三个模式生物数据库的整合开始,三个数据库分别是:the FlyBase(果蝇数据库),theSaccharomyces Genome Database ( 酵母基因组数据库)和 theMouse Genome Informatics ( 小鼠基因组数据库) ,从那时开始,GO数据库经过二十多年的不断发展壮大,现在已经成为包含数十个动物、植物、微生物的数据库。

GO是OBO(Open BiomedicalOntologies)组织中的一员,GO提供了一系列的语义(terms)用于描绘基因、基因产物的特点,这些语义通过三个概念维度展开:细胞学组件(Cellular Component)用于描述某个节点的亚细胞结构、位置和大分子复合物,如外部封装结构(external encapsulating structure)等;分子功能(molecular function),用于描述基因以及基因产物的功能,比如蛋白质结合转录因子活性(protein binding transcription factor activity);生物学途径(biological process)指的是分子功能的有序组合以实现更复杂的生物功能,例如树突状细胞的抗原处理和提呈(dendritic cell antigen processing and presentation)

GO委员会不仅要定义语义(term)还要定义语义与语义之间的关系,使其总体构成具有一定组织结构的语义词汇表。对于语义之间组织结构的定义,GO采用的是一个有向无环图,有向指的是term之间有指向性关系,且在GO中这种指向性是单向的,例如term A代表线粒体,term B代表细胞器,我们能说A是B,但是不能说B是A,无环指的是当你从任何一点开始,顺着指向走的话永远不可能走回原点。GO中语义之间的关系有三种,分别是is a、part of和regulates,其中is a具有传递性,例如,如果 term A is a term B,term B is aterm C,那么term A is a C,同样partof 也具有传递性,如果关系is a和part of组合,则其关系均为part of,regulates指的是如果某一过程影响另一过程或参数值的表现形式,那么我们称前者regulates后者,被调节的对象可以是一个过程也可以是是一个参数值。基于目前GO数据库的研究深度其注释方式分为两种,一种是狭义注释即将基因直接注释到所能注释到的最细致的功能节点,另外一种注释方式是广义注释,即狭义注释于某个功能节点的基因亦能注释在位于该节点的上层祖先节点。在本课题的研究过程中,我们会用到GO数据库对我们感兴趣的差异基因进行功能富集。

为了分析差异基因扰动了哪些功能类,我们进行了GO功能富集。GO功能富集指的是利用利用统计学方法判断在某一个GO节点上感兴趣的基因是不是非随机的出现,常见的统计学方法包括超几何分布检验、二项分布检验、fisher精确检验、卡方检验。在本课题中我们用到的是超几何分布检验,公式如下,

其中N指的是芯片上所检测的并且在GO中出现的所有基因(也就是背景基因),M指的是感兴趣的基因个数(上调差异基因或者下调差异基因),n指的是某一GO节点上的基因个数,k指的是某一GO节点上感兴趣的基因个数。p指的是超几何检验的显著性,如果p<0.05则认为感兴趣的基因在某一个GO节点上是非随机出现的,也就是说这个GO节点是被感兴趣的基因显著扰动的。

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 怎么我的文章才3分,别人的能到8分
相关文章