小鬼的转录组测序分析专题（五）-数据下载-行业观点-衍因科研协作平台

小鬼的转录组测序分析专题（五）-数据下载

admin 153 2025-02-02 14:14:44 编辑

【转录组测序分析专题5】

测序数据下载

【转录组测序分析专题】将要讲解流程的内容如下：

往期精彩回顾

【转录组测序分析专题1】fq和fa格式介绍

【转录组测序分析专题2】gff和gtf格式介绍

【转录组测序分析专题3】SAM格式介绍

【转录组测序分析专题4】VCF格式介绍

基本数据格式写了4篇文章，然后小编越来越觉得，一开始介绍基本格式貌似不是最好的方法，比如小编我就是那种只有将这些概念性的介绍放在实际具体的操作中的时候，才会对这些基本格式有更深层次的理解的人。嗯，啥了不多说了，开始进入分析的正题吧。

巧妇难为无米之炊，一切分析的根本都来源于数据。

小编向你发出了来自灵魂的拷问：

数据如何下载？

数据量是多少？

是否满足分析的需求？

数据质量如何？

又如何评价？

如何查看数据是否含有其他物种污染？

…

这些都是开始进入分析前很重要的一个工作。今天介绍如何在NCBI上下载二代测序数据。

首先，我们在GEO数据库（网址：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE101521）上选择了一套数据GSE101521，这套数据的情况如下：

1，数据概况：

2，测序平台以及

3，数据下载

进入上图中标出的SRA位置，网址：

https://www.ncbi.nlm.nih.gov/sra?linkname=bioproject_sra_all&from_uid=394722

每个样本一个条目，我们先来看看每个样本里面都有些什么信息。如下图，

这里要特别注意一下：

Bases的大小指的是测序数据有多少的碱基，1G=103M=106kb=109b，b为base，即碱基。

Size的大小是数据量所占存储的大小，为计算机术语，1Gb=1024M。

其实图片中还有一个词语值得注意：链特异性测序（strand specific sequencing），今天就不讲这个了，这是一个值得深扣的事情。

方法1：使用wget下载（Linux环境）

以下是NCBI 存放SRR5832002的路径

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR583/SRR5832002/

ftp构成特点：

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR+SRR前三位数字(543)/SRR+完整登陆号(5832002)

进入即可看到FTP文件,可以直接下载或者通过复制链接用wget 下载

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR583/SRR5832002/SRR5832002.sra

因此根据链接的特点，知道SRR号，我们可以批量生成下载链接，下载全部的数据

那么，如何得到SRR号呢？

然后Create File，得到文件如下：

如果按SRP下载文件的话，构成是SRP112551

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/+SRP+SRP前三位数字 (112) /SRP+SRP的完整登陆号(112551)

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP112/ SRP112551

方法2 ：NCBI官网软件SRA Tookit

1，下载SRA Tookit软件

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

点击software，选择需要的sratoolkit版本进行下载，这里小编测试windos版本的

帮助文档：

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

使用prefetch命令下载，window下，打开cmd，

输入命令：

.\sratoolkit.2.9.6-win64\bin\prefetch.exe --option-file SraAccList.txt

详细命令点击prefetch进入查看

Aspera下载教程

Aspera下载数据实操课程

最后，对于下载如果大家有遇到什么问题，可以下方留言哦，小编看到了会耐心解答~下期，会讲解如何将sra格式的文件转换问fq格式，不见不散！

argin-right: 8px;margin-left: 8px;max-width: 100%;min-height: 1em;letter-spacing: 0.544px;white-space: normal;background-color: rgb(255, 255, 255);line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">

标签：

NC重磅！CellChat：单细胞通讯分析工具！

805 2024-12-18

小鬼的转录组测序分析专题（五）-数据下载

SMART蛋白质结构域注释的20年(附用法）

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

单酶切和双酶切的区别，了解这两者的特点

如何通过智能科研工具提升研究效率与数据分析助力科研创新

SMART蛋白质结构域注释的20年(附用法）

深度学习与生物医药AI大模型如何重塑药物研发的未来？

如何在NCBI上查找基因的CDS序列

最新文章

分子生物学名词解释核心概念与蛋白质组学解读

分子生物学实验技术：体系分类、优化策略与应用案例

分子生物学试剂：保存条件、失效判断与应用指南

《医学分子生物学杂志》学术前沿与投稿指南

分子生物学实验的核心技术与应用

现代分子生物学的主要研究领域

分子生物学技术的主要分类与应用场景

生物化学与分子生物学的学科概述与核心研究内容

分子生物学软件的核心功能与优势

分子生物学工具：核心功能、应用场景与发展趋势解析

热门标签