一个实现转录本和基因之间连贯分析的新方法

admin 64 2025-02-08 14:54:44 编辑

转录水平下的基因水平差异分析

Gene-level differential analysis at transcript-level resolution

基因水平RNA-seq差异分析看上去与转录水平分析类似,但从转录到基因的转换有相当大的复杂性。因此,RNA-seq的转录本差异分析和基因差异分析目前还是两个独立的程序。

今天小编介绍一个转录本和基因之间连贯分析的方法。Lynn Yi等人提出了在转录水平下进行基因水平差异分析的新机制,它是一种“先分析,后聚合”的方式,对转录本进行差异表达分析或TCC比较,获得p值,再用Lancaster Method将转录水平P值进行聚合,从而获得基因水平的p值,并且通过将其扩展到GO分析来强调该方法在不同生物分辨水平上的一般性,实现了在转录本和基因之间产生一个连贯分析。

“先分析,后聚合”是指先对转录本层面进行差异分析(采用sleuth和DESeq2方法),后对差异分析后产生的转录p值进行聚合(尝试Lancaster Method 、Šidák Method两种方法)从而获得基因水平的p值。

在转录本差异分析与聚合层面,使用kallisto v.0.43.1对RNA-seq进行定量以获得从count数和丰度。并采用sleuth和DESeq2方法(默认设置和wald检验)进行差异表达获得转录p值,然后用Lancaster方法将其聚合获得基因p值。

在转录兼容性计数(TCC)差异分析与聚合层面,使用kallisto中pseudo选项获得TCCs(包含样本数目和等价类别的数目),每个TCC代表对应于转录类的等价类的RNA SEQ计数。将所有对应于来自一个以上基因的转录物的TCC去除,保留下来的counts同样用sleuth和DESeq2方法进行差异表达获得转录p值,然后用Lancaster方法将其聚合获得基因p值。

我们使用每种差异表达方法(sleuth和DESeq2)在模拟情景中评估每种聚合方法(Lancaster Method 、Šidák Method)。

以sleuth差异分析方法为例,每种聚合方法的灵敏度和错误发现率曲线如下图所示。

图b为图a的局部放大图,sleuth-gene代表采用标准的基因水平差异分析方法的结果,sleuth-sidak Tx代表采用Šidák Method聚合转录本差异分析p值的结果,seluth-Lancaster Tx/TCC分别代表采用Lancaster Method对转录本或TCC差异分析获得p值聚合的结果。

可以看出,在低错误率情况下,Lancaster聚合方法都优于其他方法。于是该方法采用Lancaster Method对差异分析的p值进行聚合,从而获得基因水平p值。

RNA-seq实验经典的GO分析,首先进行基因差异表达分析以获得统计学差异基因的列表(即,具有p值<0.05的所有基因)或基因的排列顺序列表(即有序以p值表示),然后鉴定在该基因列表中统计富集的GO。该研究中没有测试GOs的富集程度,而是研究了“扰动分析”的方式查看相关GO term是否显着受到扰动。为了测试扰动,我们汇总了每个GO项中所有基因的转录物定量或TCC的p值,以获得每个GO项的p值,然后对这些值进行Bonferroni校正。

以地塞米松处理对胚胎小鼠原代神经祖细胞的影响(GSE95363)为例,

首先,我们使用前面讨论的四种聚合方法中的每一种进行差异表达,以获得差异基因列表(FDR <0.05)。然后,对每个方法产生的差异基因列表进行GO注释。

同样可以看出,Lancaster Method效果最优。

总之,该方法用Lancaster Method将转录本p值聚合来调用基因差异表达,其不仅优于其他基因水平方法,还保留关于转录本动力学的信息,并且可以实现在转录本和基因之间产生一个连贯分析。

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 适用于三代测序的比对工具
相关文章