简单介绍富集分析

admin 34 2025-03-28 12:53:08 编辑

富集分析

富集分析经常用在差异表达基因、选择压力基因筛选后分析上,总有人会分不清富集和注释的关系。

本文主要从过滤背景(爹)的角度帮助大家为啥必须要做富集分析。 

简单介绍

如上图中A代表我上调的基因,B中为注释到某一个通路中基因。50代表注释到B并且处于上调的基因

我们这里研究富集其实就是为了研究那50个基因,直接注释不是已经很有意义了吗。为啥还要计算个p值,计算富集。

过滤背景

其实这里有一个问题。就是我们感兴趣的100个基因其中有50个跟这个通路有关,剩下的50个可能和其他的通路有关。如果有一部分基因比如20个富集到了含有30个基因的C通路上,这样,我们就很难直观的了解到A到底是富集在B上,还是C上。

因为B、C通路上的基因数不一样多,说白了就是不一样。而计算富集就是要将B、C本身的背景过滤掉。(将拼爹的因素过滤掉)

如果过滤呢,很简单,就是计算两个比率是否相等。

B通路中基因和总体基因的比率

富集到B中基因和B通路中基因的比率。

如果显著不相等,p<0.05,说明过滤掉背景之后,基因还是显著的富集在B上。

检验方法

Fisher 精确检验来确定两个总体比率是否相等。对于此应用,原假设假定两个总体比率是相等的 ;备择假设可以是左尾 (p1 < p2)、右尾 (p1 > p2),或双尾 (p1 ≠ p2)。Fisher 精确检验作为两个比率的检验十分有用,因为它对于所有样本数量都是准确的,而当事件数小于 5 时,以及试验数减去事件数的结果小于 5 时,基于正态近似的 2 个比率的检验可能不准确。


欢迎关注

上一篇: 基因设计工具的十大推荐,让你的科研事半功倍
下一篇: NCBI如何下载转录组数据(ftp+Aspera)
相关文章