TCGA数据下载-行业观点-衍因科研协作平台

TCGA数据下载

admin 607 2025-02-12 12:59:08 编辑

最近听说还有人不知道怎么下载TCGA数据，“有时候找找自己原因好吧，这么多年了数据下载方式还不知道，有没有认真查资料”。小编汇总整理了三种常用的下载方式，三种方式从难到易，没有代码基础的同学可以直接跳到第三部分，如果有用的话记得收藏哦：

①官方网站下载（GDC，需要用代码再汇总处理，定期更新）

②R语言下载（需要用代码，与官网同步更新，小编推荐）

③其它数据库下载（UCSC xena数据库、cBioPortal数据库等，不需要代码，很久不更新，数据库中没有收录病理和影像组学数据）

TCGA数据库收录了30多种癌症，数据库中癌症名称都是缩写，所以这里也把各癌症英文、简称、中文列出来供大家参考：

一、官方网站下载

进入GDC网站，进入数据检索和下载页面

在Cases选项卡中选择要下载的癌症：Program选择TCGA，Project勾选对应的癌症，这里我们假设是LUAD

还可以根据临床信息进一步筛选样本，比如年龄、性别、人种、生存状态、生存时间等，也可以不筛选

在Files选项卡中选择要下载的数据类型，我们以基因表达数据为例，Data category选择transcriptome profiling，Data Type选择Gene Expression Quantification，Experimental Strategy选择RNA-seq，Workflow Type选择STAR-Counts

页面刷新后就是符合条件的一个个数据文件了，点击Add all files to cart按钮将这些文件加入到购物车，然后再点击Cart进入购物车（类似淘宝，先加购物车再统一结账）

进入到购物车以后，点进Download按钮中的Cart开始下载数据，点击Clinical按钮下载这些数据对应的临床信息，然后等待数据下载完成就OK啦。

二、R语言下载

可以先通过GDC网页确定数据的各类参数，也可以直接通过代码查看

```R

setwd("~/projects/other_test/TCGA/")

library(TCGAbiolinks) # 加载R包

query <- GDCquery(

project = "TCGA-CHOL", # 癌症类型，用getGDCprojects()$project_id查看所有ID

data.category = "Transcriptome Profiling", # 数据类别，用getProjectSummary(project)查看所有类别

data.type = "Gene Expression Quantification", # 数据类型

workflow.type = "STAR - Counts" # 工作流类型

)

# 下载数据

GDCdownload(query = query, files.per.chunk = 50)

# 整理数据并存储为R对象

GDCprepare(query, save = T, save.filename = "transcriptome.Rdata")

```

可以发现下载的数据和GDC官网下载的是一样的~

三、其它数据库下载

进入UCSC Xena数据库下载页面，不仅包含TCGA数据还包含TARGET、CCLE等其它数据，选择TCGA-LUAD

网站已经根据数据类型进行分块展示，我们选择表达数据

下载表达谱矩阵和转录本ID-Symbol对应关系，搞定~

总体来说，小编更推荐第二种下载方式，可以批量下载多个癌症多种数据类别，后台下载还不影响其它工作~

NC重磅！CellChat：单细胞通讯分析工具！

805 2024-12-18

TCGA数据下载

SMART蛋白质结构域注释的20年(附用法）

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

单酶切和双酶切的区别，了解这两者的特点

如何通过智能科研工具提升研究效率与数据分析助力科研创新

SMART蛋白质结构域注释的20年(附用法）

深度学习与生物医药AI大模型如何重塑药物研发的未来？

如何在NCBI上查找基因的CDS序列

最新文章

分子生物学名词解释核心概念与蛋白质组学解读

分子生物学实验技术：体系分类、优化策略与应用案例

分子生物学试剂：保存条件、失效判断与应用指南

《医学分子生物学杂志》学术前沿与投稿指南

分子生物学实验的核心技术与应用

现代分子生物学的主要研究领域

分子生物学技术的主要分类与应用场景

生物化学与分子生物学的学科概述与核心研究内容

分子生物学软件的核心功能与优势

分子生物学工具：核心功能、应用场景与发展趋势解析

热门标签