超友好的TCGA数据下载方式！-行业观点-衍因科研协作平台

超友好的TCGA数据下载方式！

admin 220 2025-01-20 11:05:43 编辑

TCGA数据库可以说是研究分析中必不可少的一部分，数据目前在官网的下载方式虽说不难，但是整合起来还是叫人头大！不善于编程的小编被他整整折磨了一天也可以说是毫无进展！！！在摔电脑的边缘疯狂试探......

可是小编不能放弃，在崩溃的同时到处寻找解决办法，于是找到了一个R包--TCGAbiolinks，它是GDC官方推荐了一款第三方工具，通过GDC官方API下载数据，保证数据的及时性和准确性，同时也提供数据整理、聚类分析、差异分析、富集分析等功能。看上去还不错，小编就自己对下载数据初步尝试了一番~

首先是TCGAbiolinks的安装和加载，TCGAbiolinks对于R的版本要求较高，建议在3.4以上的版本进行

#安装source("https://bioc.ism.ac.jp/biocLite.R")biocLite("TCGAbiolinks")#加载library(TCGAbiolinks)

1、表达谱数据

#可以下载三种形式的数据，如"HTSeq - Counts","HTSeq - FPKM-UQ","HTSeq - FPKM"query <- GDCquery(project = "TCGA-GBM",##对应癌症 data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "HTSeq - FPKM-UQ"##对应数据形式"HTSeq - Counts","HTSeq - FPKM" )GDCdownload(query)data <- GDCprepare(query)

2、甲基化数据

#"Illumina Human Methylation 450","Illumina Human Methylation 27"query<- GDCquery(project = "TCGA-GBM", legacy = TRUE,data.category = "DNA methylation", platform ="Illumina Human Methylation 450")GDCdownload(query)data<-GDCprepare(query)#甲基化idat文件query <- GDCquery(project = "TCGA-GBM", data.category = "Raw microarray data", data.type = "Raw intensities", experimental.strategy = "Methylation array", legacy = TRUE, file.type = ".idat", platform = "Illumina Human Methylation 450")GDCdownload(query)data<-GDCprepare(query)

3、miRNA

query = GDCquery(project = "TCGA-GBM", data.category = "Transcriptome Profiling", data.type = "miRNA Expression Quantification") GDCdownload(query)data<-GDCprepare(query)

4、拷贝数变异

query <- GDCquery(project = "TCGA-GBM", data.category = "Copy Number Variation", data.type = "Copy Number Segment")GDCdownload(query)data<-GDCprepare(query)

5、临床数据

clinical <- GDCquery_clinic(project = "TCGA-GBM", type = "Clinical", save.csv=TRUE##可以直接写出文件 )select<-c("submitter_id","gender","year_of_birth","days_to_death", "vital_status","tumor_grade","tumor_stage")##可以根据列名选择部分输出clinical_select<-clinical[,select]write.table(clinical_select,file = "GBM_clinical.txt",sep="\t",row.names=FALSE)

对于表达谱、甲基化谱、miRNA、拷贝数变异数据，通过上述的操作都可以获得data进行后续分析，当然，我们也可以把这些数据进行保存

#以表达谱为例进行演示，其他同理library(TCGAbiolinks)library(SummarizedExperiment)library(stringr)setwd("D:/gdc/")#设置工作路径query <- GDCquery(project = "TCGA-GBM", data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "HTSeq - FPKM-UQ")GDCdownload(query)expdat <- GDCprepare(query)matrix=assay(expdat)namecol<-substring(colnames(expdat),1,16)#将"TCGA-14-0736-02A-01R-2005-01"转化成"TCGA-14-0736-02A"这样的形式colnames(matrix)<-namecolwrite.table(matrix,file = "GBM_expression_FPKM-UQ.txt",sep="\t")#输出文件

这样我们就可以得到类似下图形式的数据

TCGAbiolinks还可以进行对数据进一步的分析，比如差异分析、富集分析等，待小编深入学习下再来介绍~

2019年，遇见更好的自己

NC重磅！CellChat：单细胞通讯分析工具！

805 2024-12-18

超友好的TCGA数据下载方式！

SMART蛋白质结构域注释的20年(附用法）

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

单酶切和双酶切的区别，了解这两者的特点

如何通过智能科研工具提升研究效率与数据分析助力科研创新

SMART蛋白质结构域注释的20年(附用法）

深度学习与生物医药AI大模型如何重塑药物研发的未来？

如何在NCBI上查找基因的CDS序列

最新文章

分子生物学名词解释核心概念与蛋白质组学解读

分子生物学实验技术：体系分类、优化策略与应用案例

分子生物学试剂：保存条件、失效判断与应用指南

《医学分子生物学杂志》学术前沿与投稿指南

分子生物学实验的核心技术与应用

现代分子生物学的主要研究领域

分子生物学技术的主要分类与应用场景

生物化学与分子生物学的学科概述与核心研究内容

分子生物学软件的核心功能与优势

分子生物学工具：核心功能、应用场景与发展趋势解析

热门标签