【转录组测序分析专题5】
测序数据下载
【转录组测序分析专题】将要讲解流程的内容如下:
往期精彩回顾
【转录组测序分析专题1】fq和fa格式介绍
【转录组测序分析专题2】gff和gtf格式介绍
【转录组测序分析专题3】SAM格式介绍
【转录组测序分析专题4】VCF格式介绍
基本数据格式写了4篇文章,然后小编越来越觉得,一开始介绍基本格式貌似不是最好的方法,比如小编我就是那种只有将这些概念性的介绍放在实际具体的操作中的时候,才会对这些基本格式有更深层次的理解的人。嗯,啥了不多说了,开始进入分析的正题吧。
巧妇难为无米之炊,一切分析的根本都来源于数据。
小编向你发出了来自灵魂的拷问:
数据如何下载?
数据量是多少?
是否满足分析的需求?
数据质量如何?
又如何评价?
如何查看数据是否含有其他物种污染?
…
这些都是开始进入分析前很重要的一个工作。今天介绍如何在NCBI上下载二代测序数据。
首先,我们在GEO数据库(网址:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE101521)上选择了一套数据GSE101521,这套数据的情况如下:
1,数据概况:
2,测序平台以及下载地址
3,数据下载
进入上图中标出的SRA位置,网址:
https://www.ncbi.nlm.nih.gov/sra?linkname=bioproject_sra_all&from_uid=394722
每个样本一个条目,我们先来看看每个样本里面都有些什么信息。如下图,
这里要特别注意一下:
Bases的大小指的是测序数据有多少的碱基,1G=103M=106kb=109b,b为base,即碱基。
Size的大小是数据量所占存储的大小,为计算机术语,1Gb=1024M。
其实图片中还有一个词语值得注意:链特异性测序(strand specific sequencing),今天就不讲这个了,这是一个值得深扣的事情。
方法1:使用wget下载(Linux环境)
以下是NCBI 存放SRR5832002的路径
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR583/SRR5832002/
ftp构成特点:
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR+SRR前三位数字(543)/SRR+完整登陆号(5832002)
进入即可看到FTP文件,可以直接下载或者通过复制链接用wget 下载
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR583/SRR5832002/SRR5832002.sra
因此根据链接的特点,知道SRR号,我们可以批量生成下载链接,下载全部的数据
那么,如何得到SRR号呢?
然后Create File,得到文件如下:
如果按SRP下载文件的话,构成是SRP112551
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/+SRP+SRP前三位数字 (112) /SRP+SRP的完整登陆号(112551)
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP112/ SRP112551
方法2 :NCBI官网软件SRA Tookit
1,下载SRA Tookit软件
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
点击software,选择需要的sratoolkit版本进行下载,这里小编测试windos版本的
帮助文档:
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
使用prefetch命令下载,window下,打开cmd,
输入命令:
.\sratoolkit.2.9.6-win64\bin\prefetch.exe --option-file SraAccList.txt
详细命令点击prefetch进入查看
Aspera下载教程
Aspera下载数据实操课程
最后,对于下载如果大家有遇到什么问题,可以下方留言哦,小编看到了会耐心解答~下期,会讲解如何将sra格式的文件转换问fq格式,不见不散!
更多生信分析套路,请加微信13621202201