TCGA数据下载

admin 144 2025-02-12 12:59:08 编辑

最近听说还有人不知道怎么下载TCGA数据,“有时候找找自己原因好吧,这么多年了数据下载方式还不知道,有没有认真查资料”。小编汇总整理了三种常用的下载方式,三种方式从难到易,没有代码基础的同学可以直接跳到第三部分,如果有用的话记得收藏哦:

①官方网站下载(GDC,需要用代码再汇总处理,定期更新)

②R语言下载(需要用代码,与官网同步更新,小编推荐)

③其它数据库下载(UCSC xena数据库、cBioPortal数据库等,不需要代码,很久不更新,数据库中没有收录病理和影像组学数据)

TCGA数据库收录了30多种癌症,数据库中癌症名称都是缩写,所以这里也把各癌症英文、简称、中文列出来供大家参考:

 

一、官方网站下载

进入GDC网站,进入数据检索和下载页面

在Cases选项卡中选择要下载的癌症:Program选择TCGA,Project勾选对应的癌症,这里我们假设是LUAD

还可以根据临床信息进一步筛选样本,比如年龄、性别、人种、生存状态、生存时间等,也可以不筛选

在Files选项卡中选择要下载的数据类型,我们以基因表达数据为例,Data category选择transcriptome profiling,Data Type选择Gene Expression Quantification,Experimental Strategy选择RNA-seq,Workflow Type选择STAR-Counts

页面刷新后就是符合条件的一个个数据文件了,点击Add all files to cart按钮将这些文件加入到购物车,然后再点击Cart进入购物车(类似淘宝,先加购物车再统一结账)

进入到购物车以后,点进Download按钮中的Cart开始下载数据,点击Clinical按钮下载这些数据对应的临床信息,然后等待数据下载完成就OK啦。

二、R语言下载

可以先通过GDC网页确定数据的各类参数,也可以直接通过代码查看

```R

setwd("~/projects/other_test/TCGA/")

library(TCGAbiolinks) # 加载R包

query <- GDCquery(

    project = "TCGA-CHOL", # 癌症类型,用getGDCprojects()$project_id查看所有ID

    data.category = "Transcriptome Profiling", # 数据类别,用getProjectSummary(project)查看所有类别

    data.type = "Gene Expression Quantification", # 数据类型

    workflow.type = "STAR - Counts" # 工作流类型

)

# 下载数据

GDCdownload(query = query, files.per.chunk = 50)

# 整理数据并存储为R对象

GDCprepare(query, save = T, save.filename = "transcriptome.Rdata")

```

可以发现下载的数据和GDC官网下载的是一样的~

三、其它数据库下载

进入UCSC Xena数据库下载页面,不仅包含TCGA数据还包含TARGET、CCLE等其它数据,选择TCGA-LUAD

网站已经根据数据类型进行分块展示,我们选择表达数据

下载表达谱矩阵和转录本ID-Symbol对应关系,搞定~

总体来说,小编更推荐第二种下载方式,可以批量下载多个癌症多种数据类别,后台下载还不影响其它工作~

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 科技杂谈:讨论也可以躺桌上
相关文章