如何快速确认数据集有无随访信息

admin 60 2025-02-09 14:30:44 编辑

预后数据查找的几种方法昨天我们公布了整理的公开数据中免疫治疗的队列数据,其中重要的是生存的数据。后台有小编问很多时候不清楚某一套数据集到底有没有预后的信息,到底应该怎么确定,自己还是不太有把握。今天小编就抛砖引玉,简单的说下几种确定样本有没有预后信息的方法。生信分析,步就是要找数据,当自己手头的数据不足或者随访信息不全面时,可以优先考虑公开数据库的数据,毕竟公开数据的数据也已经相当丰富了。:NCBI,SRA数据overview首先我们要考虑的公开数据网站,小编建议先TCGA、ICGC及其他独立网站,后GEO和EBI。说下原因TCGA数据库是公认的数据质量,随访信息,各个组学数据都比较全面的数据库,多为测序数据,满足多用途的挖掘需求。同样其缺点也很明显,就是大家都会集中在这些数据上挖掘,如何出彩是比拼的重点。同样对于ICGC、CGGA等这些独立的队列数据库,也是一样的逻辑,就看谁能时间掌握最新的数据出炉,基本上这些数据出现就是一批文章。再后面说下GEO数据库,它的特点是数据量大,包括样本,包括各个组学和平台的数据,多为芯片数据,同样也会存在杂而不精的现象。之前推广的工具,完美的解决了RNA-seq和芯片合并的问题,今天我们再来解决下GEO数据的第二个问题,临床信息整理的不规范。大家都知道数据分析,离不开样本的随访信息,比如最关注的的预后信息。但是GEO数据库的这一部分信息整理的相当不规范。我们介绍几种确定样本是否有临床信息的方法,供大家参考。一、直接看样本信息。以胃癌为例,搜索“gastric cancer ”检索出胃癌数据,直接点击样本看是否有随访信息。像这种就直接可以确定为其有随访信息且能下载到。二、看发表文章的配图还是以胃癌为例,比如GSE26901这套数据,点击查看样本信息,展示如下:没有预后信息,一般的到这里就放弃了,不过小编还是建议你此时要多留意下,看看对应的文章。对应文章发表在nature communication上,对应文章配图也有km曲线,可以明确的是这套数据是有临床随访信息的。三、看发表文章的补充材料如果确定了感兴趣的数据确实有临床随访信息,下一步就是如何获取的问题了。有可能作者公布了,但是没有放在GEO的样本信息中,有可能放在了额外的一个临床信息表中,还有一种可能就是放在了文章的补充材料中。以GSE26901为例,补充材料中可以看到对应的样本信息是有预后信息的,OS和RFS。当然我们通过下载这个补充材料,还发现胃癌的5,6套数据都是有预后信息的。相当于有意外收获。通过这三种操作,基本上可以保证大概率不会漏掉信息,如果确定有预后信息,但是没法下载到,就可以给客户发邮件沟通了,这个时候就得看人品了。其实还有另外一种更高维的方式,就是通过阅读感兴趣癌型的文献,对这个癌型了解透彻,基本就能全盘拿捏。这个比较适合临床医生,当然还有一种比较接地气的方法,就是紧跟数据的更新,比如我们的easyGEO,每天会爬GEO的数据,进行汇总,并进行预后信息的大概识别,基本上能满足大家的需求。欢迎关注转录组| 甲基化 | 重测序 | 单细胞 | m6A|多组学  cytoscape | limma | WGCNA |水熊虫传奇|linux电泳 | PCR | 测序简史 | 核型 | NIPT | 基础实验 基因| 2019-nCoV | 富集分析 | 联合分析 |微环境 瘟疫追凶| 思路汇总| 学者 | 科研 | 撤稿| 读博|工作

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 自然综述:单细胞和空间组的数据整合方法
相关文章