富集分析

富集分析经常用在差异表达基因、选择压力基因筛选后分析上,总有人会分不清富集和注释的关系。
本文主要从过滤背景(爹)的角度帮助大家为啥必须要做富集分析。
简单介绍
如上图中A代表我上调的基因,B中为注释到某一个通路中基因。50代表注释到B并且处于上调的基因。
我们这里研究富集其实就是为了研究那50个基因,直接注释不是已经很有意义了吗。为啥还要计算个p值,计算富集。
过滤背景
其实这里有一个问题。就是我们感兴趣的100个基因其中有50个跟这个通路有关,剩下的50个可能和其他的通路有关。如果有一部分基因比如20个富集到了含有30个基因的C通路上,这样,我们就很难直观的了解到A到底是富集在B上,还是C上。
因为B、C通路上的基因数不一样多,说白了就是不一样。而计算富集就是要将B、C本身的背景过滤掉。(将拼爹的因素过滤掉)
如果过滤呢,很简单,就是计算两个比率是否相等。
B通路中基因和总体基因的比率
富集到B中基因和B通路中基因的比率。
如果显著不相等,p<0.05,说明过滤掉背景之后,基因还是显著的富集在B上。
检验方法
Fisher 精确检验来确定两个总体比率是否相等。对于此应用,原假设假定两个总体比率是相等的 ;备择假设可以是左尾 (p1 < p2)、右尾 (p1 > p2),或双尾 (p1 ≠ p2)。Fisher 精确检验作为两个比率的检验十分有用,因为它对于所有样本数量都是准确的,而当事件数小于 5 时,以及试验数减去事件数的结果小于 5 时,基于正态近似的 2 个比率的检验可能不准确。
欢迎关注