芯片和Seq合并不纠结,高分文章在线解决

admin 18 2025-01-26 编辑

Rank-In今天小编给大家安利一款超好用的转录组在线分析工具Rank-In,同济大学Cao Zhiwei老师于今年6月份发表在Nucleic Acids Research(IF=16.973)上。Rank-In用来分析整合转录组数据,包括芯片测序技术和RNA-seq技术,适用于以下三个方面的用户需求:、(1)不同时间、不同技术产生的用户自有数据;(2)不同实验室在不同平台下产生的数据组合;(3)整合数据库中大数据样本。可以进行批次平台校正、差异表达分析,甚至还可以进行自动绘图。作者将其开发成网站,用户无需写任何代码,鼠标点点点就可以完成分析、作图。本文方法基本思想、方法性能评估、网页实战三方面进行介绍,对算法不感兴趣的小伙伴可以直接跳转到第三部分。一、方法基本思想Rank-In算法基本分为以下三个步骤:(1)在所有需要整合的数据集内部按照表达值、信号值的对基因从低到高排秩,最低为1, 最高为100,中间用百分位数表示(向下取整),称为内部排秩(Internal ranking)。(2)对每个表达谱中的每个基因,利用基因表达值和内部排秩值,计算基因表达的权重值(weight),通过基因表达矩阵和基因权重的乘积可以得到加权的排秩矩阵(Weighted ranking matrix)。(3)通过奇异值分解(SVD)得到基因的校正后矩阵。通过中比较RNA-seq和芯片测序,可以将基因表达值或信号值标化到同一基准,可以是校正后的表达值,也可以是校正后的排秩,无论是哪一种,都具有平台间可比性。 Rank-In 算法的工作流程二、方法性能评估作者选用了两套数据集GSE56457和GSE47774,比较了Rank-In和其它三种方法(ComBat、SVA和Angel’s method)对于不同测序平台或技术的校正结果。当不进行校正的时候,不能从表达值很好的区分两个样本。但经过校正之后,两个样本能够被区分开,这代表了生物学意义的捕获。此外,从校正后表达值/排秩的分布角度来看,校正前存在两个峰,Rank-In方法在较好的校正两个测序技术所生成的信号值的同时,将两个峰整合成为了一个峰,相比于其它方法更加贴合理想状态,彰显了Rank-In方法的优越性。 Rank-In及其它方法对测序数据校正的性能比较作者在胶质母细胞瘤和结肠癌的数据中验证方法性能,同时引入正常的样本作为参照。总的来说,Rank-In在区分癌症样本与正常样本的基因谱方面表现最佳,在聚类同一生物样本的基因谱方面也表现最佳,这表明其在减少基因芯片和RNA-seq的非生物效应方面具有独特的能力。 对于胶质母细胞瘤和结肠癌临床数据的聚类性能其实对于转录组数据,必不可少的就是差异表达分析。因此作者比较了这几种策略的差异表达分析的结果。随着测试过程中样本量的增加,DEGs的重复率也逐渐升高,并且性能也逐渐稳健,表明了芯片数据和RNA-seq数据在Rank-In方法的处理后进行差异表达分析,揭示的是相同的生物学变异。 RNA-seq和芯片数据的差异表达基因重复率三、网页实战不会写代码?没关系,作者开发了分析网站,鼠标点点点就可以完成全部分析,接下来让我们看看它的online 版本吧。主页简单明了,并且直接说明了Rank-In被构建来分析整合癌症转录组数据,包括芯片测序技术和RNA-seq技术,适用于以下三个方面的用户需求:(1)不同时间、不同技术产生的用户自有数据;(2)不同实验室在不同平台下产生的数据组合;(3)整合数据库中大数据样本。 网站主页用户需要提交数据文件,然后点击Submit按钮即可开始全部分析。其中红色框起来的两个文件是必需要上传的文件,详见下文。 需要输入的信息输入数据(必需):基因表达矩阵。一个tab分隔的txt文本文件,其中行表示基因,列表示样本。每个基因和样本的名称必须是唯一的,对于芯片数据,如果有多个探针对应同一基因时,需要将相同探针的结果用中值或平均值代替。对于RNA-seq数据,标化格式支持FPKM、TPM、TMM。基因名称可以是Entrenze ID、Gene symbol和Ensemble ID。上传的数据有50MB的限制。对于有20000个基因的基因表达谱,这相当于大约200个样本。 基因表达文件的格式输入数据(必须):样本类别文件。其中编号样本的类型,例如,“1”表示来自正常组织的样本,“2”表示癌症亚型1的样本,“3”表示癌症亚型2的样本,以此类推。 样本类别文件可选输入数据:(1)作者鼓励用户上传平台、批次等附加信息。例如,平台栏中“1”表示来自Affymetrix U133 plus2平台的数据,“2”表示来自安捷伦微阵列的数据,“3”表示来自Illumina Hiseq 2000的数据,等等。格式同样本类别文件。(2)计算结果将以电子邮件方式发送,作者强烈建议用户选择此选项。(3)按“提交”按钮开始计算,将提供一个作业id,并将一个新页面链接到结果。当结果可用时,页面将自动刷新。用户可以通过在上面的表中输入作业id来跟踪作业状态。 点击Submit后返回的job id接下来就是等待数据在后台跑啊跑~~0 等待页面终于,结果出来了,可以直接点击下载。结果包括校正后表达值和差异表达基因,还给出了聚类热图。1 结果页面如果之前填写了邮箱信息,真的会把结果发到邮箱里面,小伙伴可以上传完数据就去忙别的事情,开心等待邮箱收结果就可以啦~是不是很强很方便~2 运行结果返回至邮箱中有生信相关问题联系:18501230653(微信同号)欢迎关注转录组| 甲基化 | 重测序 | 单细胞 | m6A|多组学  cytoscape | limma | WGCNA |水熊虫传奇|linux电泳 | PCR | 测序简史 | 核型 | NIPT | 基础实验 基因| 2019-nCoV | 富集分析 | 联合分析 |微环境 瘟疫追凶| 思路汇总| 学者 | 科研 | 撤稿| 读博|工作

芯片和Seq合并不纠结,高分文章在线解决

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 单细胞谱系分析详解
相关文章