最近听说还有人不知道怎么下载TCGA数据,“有时候找找自己原因好吧,这么多年了数据下载方式还不知道,有没有认真查资料”。小编汇总整理了三种常用的下载方式,三种方式从难到易,没有代码基础的同学可以直接跳到第三部分,如果有用的话记得收藏哦:

①官方网站下载(GDC,需要用代码再汇总处理,定期更新)
②R语言下载(需要用代码,与官网同步更新,小编推荐)
③其它数据库下载(UCSC xena数据库、cBioPortal数据库等,不需要代码,很久不更新,数据库中没有收录病理和影像组学数据)
TCGA数据库收录了30多种癌症,数据库中癌症名称都是缩写,所以这里也把各癌症英文、简称、中文列出来供大家参考:
一、官方网站下载
进入GDC网站,进入数据检索和下载页面
在Cases选项卡中选择要下载的癌症:Program选择TCGA,Project勾选对应的癌症,这里我们假设是LUAD
还可以根据临床信息进一步筛选样本,比如年龄、性别、人种、生存状态、生存时间等,也可以不筛选
在Files选项卡中选择要下载的数据类型,我们以基因表达数据为例,Data category选择transcriptome profiling,Data Type选择Gene Expression Quantification,Experimental Strategy选择RNA-seq,Workflow Type选择STAR-Counts
页面刷新后就是符合条件的一个个数据文件了,点击Add all files to cart按钮将这些文件加入到购物车,然后再点击Cart进入购物车(类似淘宝,先加购物车再统一结账)
进入到购物车以后,点进Download按钮中的Cart开始下载数据,点击Clinical按钮下载这些数据对应的临床信息,然后等待数据下载完成就OK啦。
二、R语言下载
可以先通过GDC网页确定数据的各类参数,也可以直接通过代码查看
```R
setwd("~/projects/other_test/TCGA/")
library(TCGAbiolinks) # 加载R包
query <- GDCquery(
project = "TCGA-CHOL", # 癌症类型,用getGDCprojects()$project_id查看所有ID
data.category = "Transcriptome Profiling", # 数据类别,用getProjectSummary(project)查看所有类别
data.type = "Gene Expression Quantification", # 数据类型
workflow.type = "STAR - Counts" # 工作流类型
)
# 下载数据
GDCdownload(query = query, files.per.chunk = 50)
# 整理数据并存储为R对象
GDCprepare(query, save = T, save.filename = "transcriptome.Rdata")
```
可以发现下载的数据和GDC官网下载的是一样的~
三、其它数据库下载
进入UCSC Xena数据库下载页面,不仅包含TCGA数据还包含TARGET、CCLE等其它数据,选择TCGA-LUAD
网站已经根据数据类型进行分块展示,我们选择表达数据
下载表达谱矩阵和转录本ID-Symbol对应关系,搞定~
总体来说,小编更推荐第二种下载方式,可以批量下载多个癌症多种数据类别,后台下载还不影响其它工作~