Rank-In:教你零代码在线完成转录组分析

admin 10 2025-02-02 编辑

Rank-In:教你零代码在线完成转录组分析

今天小编给大家安利一款超好用的转录组在线分析工具Rank-In,同济大学Cao Zhiwei老师于今年6月份发表在Nucleic Acids Research(IF=16.973)上。Rank-In用来分析整合转录组数据,包括芯片测序技术和RNA-seq技术,适用于以下三个方面的用户需求:(1)不同时间、不同技术产生的用户自有数据;(2)不同实验室在不同平台下产生的数据组合;(3)整合数据库中大数据样本。可以进行批次平台校正、差异表达分析,甚至还可以进行自动绘图。作者将其开发成网站,用户无需写任何代码,鼠标点点点就可以完成分析、作图。

本文方法基本思想、方法性能评估、网页实战三方面进行介绍,对算法不感兴趣的小伙伴可以直接跳转到第三部分。

一、方法基本思想

Rank-In算法基本分为以下三个步骤:

(1)在所有需要整合的数据集内部按照表达值、信号值的对基因从低到高排秩,最低为1, 最高为100,中间用百分位数表示(向下取整),称为内部排秩(Internal ranking)。

(2)对每个表达谱中的每个基因,利用基因表达值和内部排秩值,计算基因表达的权重值(weight),通过基因表达矩阵和基因权重的乘积可以得到加权的排秩矩阵(Weighted ranking matrix)。

(3)通过奇异值分解(SVD)得到基因的校正后矩阵。

通过中比较RNA-seq和芯片测序,可以将基因表达值或信号值标化到同一基准,可以是校正后的表达值,也可以是校正后的排秩,无论是哪一种,都具有平台间可比性。

二、方法性能评估

作者选用了两套数据集GSE56457和GSE47774,比较了Rank-In和其它三种方法(ComBat、SVA和Angel’s method)对于不同测序平台或技术的校正结果。当不进行校正的时候,不能从表达值很好的区分两个样本。但经过校正之后,两个样本能够被区分开,这代表了生物学意义的捕获。此外,从校正后表达值/排秩的分布角度来看,校正前存在两个峰,Rank-In方法在较好的校正两个测序技术所生成的信号值的同时,将两个峰整合成为了一个峰,相比于其它方法更加贴合理想状态,彰显了Rank-In方法的优越性。

 

作者在胶质母细胞瘤和结肠癌的数据中验证方法性能,同时引入正常的样本作为参照。总的来说,Rank-In在区分癌症样本与正常样本的基因谱方面表现最佳,在聚类同一生物样本的基因谱方面也表现最佳,这表明其在减少基因芯片和RNA-seq的非生物效应方面具有独特的能力。

 

其实对于转录组数据,必不可少的就是差异表达分析。因此作者比较了这几种策略的差异表达分析的结果。随着测试过程中样本量的增加,DEGs的重复率也逐渐升高,并且性能也逐渐稳健,表明了芯片数据和RNA-seq数据在Rank-In方法的处理后进行差异表达分析,揭示的是相同的生物学变异。

 

三、网页实战

不会写代码?没关系,作者开发了分析网站,鼠标点点点就可以完成全部分析,接下来让我们看看它的online 版本吧。

主页简单明了,并且直接说明了Rank-In被构建来分析整合癌症转录组数据,包括芯片测序技术和RNA-seq技术,适用于以下三个方面的用户需求:(1)不同时间、不同技术产生的用户自有数据;(2)不同实验室在不同平台下产生的数据组合;(3)整合数据库中大数据样本。

 

用户需要提交数据文件,然后点击Submit按钮即可开始全部分析。其中红色框起来的两个文件是必需要上传的文件,详见下文。

 

输入数据(必需):基因表达矩阵。一个tab分隔的txt文本文件,其中行表示基因,列表示样本。每个基因和样本的名称必须是唯一的,对于芯片数据,如果有多个探针对应同一基因时,需要将相同探针的结果用中值或平均值代替。对于RNA-seq数据,标化格式支持FPKM、TPM、TMM。基因名称可以是Entrenze ID、Gene symbol和Ensemble ID。上传的数据有50MB的限制。对于有20000个基因的基因表达谱,这相当于大约200个样本。

 

输入数据(必须):样本类别文件。其中编号样本的类型,例如,“1”表示来自正常组织的样本,“2”表示癌症亚型1的样本,“3”表示癌症亚型2的样本,以此类推。

 

可选输入数据:

(1)作者鼓励用户上传平台、批次等附加信息。例如,平台栏中“1”表示来自Affymetrix U133 plus2平台的数据,“2”表示来自安捷伦微阵列的数据,“3”表示来自Illumina Hiseq 2000的数据,等等。格式同样本类别文件。

(2)计算结果将以电子邮件方式发送,作者强烈建议用户选择此选项。

(3)按“提交”按钮开始计算,将提供一个作业id,并将一个新页面链接到结果。当结果可用时,页面将自动刷新。用户可以通过在上面的表中输入作业id来跟踪作业状态。

 

接下来就是等待数据在后台跑啊跑~~

 

终于,结果出来了,可以直接点击下载。结果包括校正后表达值和差异表达基因,还给出了聚类热图。

 

如果之前填写了邮箱信息,真的会把结果发到邮箱里面,小伙伴可以上传完数据就去忙别的事情,开心等待邮箱收结果就可以啦~是不是很强很方便~

 

大家记得点赞收藏哦~~~

Rank-In:教你零代码在线完成转录组分析

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 文献分享:NetAct利用转录因子活动来建立调控网络
相关文章