MiTranscriptome—通过计算学重构人类转录过程的蓝图

admin 9 2025-02-09 10:10:44 编辑

一、导语

MiTranscriptome是由密歇根大学的临床病理中心卫生系统(Michigan Center for Translational Pathology at the University of Michigan Health System)的相关专家设计开发的。

MiTranscriptome收录了来源于6,500多个不同的癌症和组织类型样本的高通量RNA-seq数据,经过计算学分析得到的带Ploy(A)尾的RNA转录本。整个记录包括了91,000多个基因,它们中的大部分是之前没有注释过的长链RNAs。基因表达分析的结果显示,它们中的大部分具有肿瘤特异性和谱系特异性。此项目的目标是是让科学界更详细地研究这些奇妙的转录本。

二、MiTranscriptome数据资源

 

Pie chart showing the number of studies curated from TCGA, ENCODE, MCTP and other publicly available datasets.

平台开发者利用了大量数据资源,主要包括25个独立的数据集,数据量大于43Tb:其中有5,847个来自于TCGA;928个来自于Michigan Center for Translational Pathology (MCTP);67个来自于from the Encyclopedia of DNA Elements (ENCODE)以及414个来自于其它公开的数据集。

MiTranscriptome共有7,256个Poly(A)的RNA-seq文库。

三、从头(Ab initio)转录组组装

转录组重构的技术路线图

 

Workflow diagram for transcriptome reconstruction

对每个RNA-seq文库分别进行从头组装,得到的转录本片段(transfrag)可能代表全长转录本或者部分转录本。根据簇聚类并过滤掉不可信的转录片段,就得到了很多从头组装结果。对于每个簇过滤转录本片段,就得到了荟萃组装(Meta-assembly)。最后,来源于每个簇的转录本被合并,产生了一个具有一致性的MiTranscriptome组装。

 

MiTranscriptome是一种可视化的平台,为每个lncRNA提供了12类信息:名称、定位、有无注释(UCSC、RefSeq或者GENCODE 19)、是否位于基因间区、类型(transcript of unknown coding potential (TUCP或lncRNA)、是否有超保守区域、与癌症或者谱系相关性、27种组织类型、过表达或低表达、FPKM值等信息。

四、挖掘癌症相关的lncRNA

 

所有的样本被分为50个不同的样本集,分别在三个大类中:

(1)肿瘤类型;

(2)正常类型;

(3)肿瘤和正常类型。

使用SSEA软件进行富集检验,得到的显著的转录本被投入到在线资源中。热图显示出此算法与Oncomine数据库的结果具有一致性。

、d)、e)、f)、g)、h)乳腺癌与正常类型、前列腺癌与正常类型样本的富集得分密度图、两个lncRNA HOTAI R和MEG3的富集程度和表达模式等信息。

 

散点图显示12种癌症和正常样本的富集得分(x轴)和癌症系的富集得分(y轴),红色的点表示符合筛选阈值的那些lncRNAs。

五、分析lncRNA的保守性

 

边缘直方图散点图显示了全长转录本保守性水平(x轴)和200bp滑动窗口内最大保守性水平(y轴)的分布。

lncRNA具有进化保守性,尤其是THCAT126,其位于第2号染色体的长臂24区1段,属于lincRNA(基因间区的lncRNA)。它可以为在体研究lncRNA在发育和肿瘤形成过程提供重要的线索。

 

作者将通过癌症和正常样本的阈值筛选,并且同时通过谱系特异性分析得到的转录本称之为肿瘤和谱系相关的转录本。

研究得到的完整的数据库MiTranscriptome compendium,已经对公众开放,网址是 www.mitranscriptome.org。


欢迎关注

MiTranscriptome—通过计算学重构人类转录过程的蓝图

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: DNA 甲基化数据分析流程
相关文章