基于RNA-Seq的lncRNA预测流程

admin 31 2025-01-25 编辑

本文将主要介绍基于RNA-Seq的lncRNA预测流程。

1. 分析流程:

整个流程顺序执行.图右侧标示了lncRNA预测流程的3个主要阶段:文库制备与测序、转录组重建及lncRNA识别与分析;左侧分别对应各个子步骤.

2. 数据分析流程

短序列片段映射到参考基因

常用软件:MapSplice、SpliceMap、Tophat、GSNAP、QPALMA等。获得BAM/SAM文件后利用SAMTools、BEDTools、IGVTools等软件进行处理。

读段装配获得转录本的常用软件包括cufflinks、Scripture等,尽管两者都采用了构建图(graph)的思路,但它们分别基于不同的图模型和优化算法。其中,Cufflinks定义了有向无环图(directedacyclicgraph,DAG),再根据Dilworth理论确定构成图拓扑的最小转录本集合。而Scripture先根据映射读段的连接信息定义了连通图(connectivitygraph),再沿着图拓扑设定滑动窗口,继而进行分段统计测试,最终确定转录本结构。Cufflinks比Scripture具有更高的敏感性和特异性。

转录本的注释:

重建得到的转录组不仅会包含已注释的基因,还可能含有新型的转录本、部分转录本、人工转录本、非Poly(A)+RNA分子或污染物片段。因此,需要对重建后的转录组进行分类和注释。Cuffcompare提供了一种有效的分类和注释方法,即将重建转录组与现有基因注释进行比较,以获取重建转录组的分类,并用类别代码(classcode)加以标示。例如,“=”代码表示此预测转录本与注释基因的所有内含子完全吻合,但它们在第一外显子(first exon)的起始端或最后外显子(lastexon)的末端可能有差别。然而,这并不影响将“=”类重建转录本判定为已注释转录本。又如,有些转录本标有“j”类别代码,表明此转录本至少有一个内含子与已注释基因的内含子相同,而其他位置可能不同。据此可推断此类转录本可能是注释基因的一个新异构体(novelisoform)。转录组类别代码不仅可以为研究者提供预测转录本的分类信息,还可用于lncRNA的识别过程。

lncRNA识别:

首先滤除低质量转录组。Cufflinks提供了一些过滤方法。其中,-F选项依据基因转录本的最高表达量来设置阈值,-I选项用来设置内含子的最大长度,--min-frags-per-transfrag选项可设置覆盖转录本的读段的最小数量。除了利用软件提供的过滤选项之外,也可通过统计学习方法从数据中获得阈值。

lncRNA识别即是从高质量转录本集合中识别lncRNA的过程。Guttman、Cabili、Pauli等都采用了下图所示的流程从高质量转录本中识别lncRNA。

lncRNA识别过程分为3步:a.提取lncRNA候选类中的转录本;b.提取外显子总长>200nt的转录本;c.滤除蛋白质编码转录本/提取非编码RNA。

a候选类:当前lncRNA的分类一般是根据它们与相邻蛋白质编码基因的相对位置来划分,如反义lncRNA(antisenselncRNA)、内含子lncRNA(introniclncRNA)、双向lncRNA(bidirectionallncRNA)及基因间lncRNA(intergeniclncRNA)等。

b.提取外显子总长度大于200碱基的转录。此阈值是由lncRNA的定义所决定,本质上是用来区分lncRNA与小ncRNA(如miRNA等),尽管有些已知的小ncRNA长度大于200碱基,但这并不影响将此阈值用于判别新的lncRNA。

c.滤除mRNA/提取ncRNA是关于如何区分mRNA与ncRNA的经典问题,方法主要分为以下4类:1)通过ORF长度判别,对于编码蛋白质的mRNA来说,其开放阅读框(ORF)长度一般大于300碱基或100氨基酸。因此,若RNA序列的ORF小于300碱基,其编码蛋白质的可能性会非常小;2)根据ORF保守性,采用比较基因组学的方法进行判别,mRNA的ORF具有保守性,即可编码蛋白质的转录本序列与已注释的蛋白质或蛋白质结构域有同源相似性;3)通过RNA二级结构保守性预测。常用的根据二级结构保守性来识别ncRNA的方法有QRNA、RNAz、EvoFOLD等;4)综合性方法。有研究通过整合以上方法来判别mRNA和ncRNA,主要分为两种。一种采用监督机器学习(supervisedmachinelearning)方法,如CPC、CONC、ncRNA等。此类方法通过学习肽链长度、氨基酸构成、蛋白质同源性、二级结构、蛋白质比对或表达等多种特征,建立分类模型。以CPC为例,其分类模型主要基于序列ORF长度和蛋白质同源性等特征;另一种综合性方法是将以上方法串联,形成一个过滤流程,用以区分mRNA与ncRNA。

lncRNA特征分析:

对于预测得到的lncRNA集合,研究一般会分析其中lncRNA的基本特征。这些特征包括转录本长度、外显子个数、表达水平、可变剪接等。

转录本长度和外显子个数可通过解析GTF文件获得。由于lncRNA表达属于转录本水平,因此可采用rSeq,Cufflinks、MISO、Alexa-seq、RSEM、IsoformEx等方法估计lncRNA的表达。

欢迎关注!

基于RNA-Seq的lncRNA预测流程

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: Nature biotechnology前沿:近细胞水平的空间转录组学
相关文章