SRA (Sequence Read Archive) 是NCBI上常用的一个数据库。它接受通过二代测序技术产生的遗传学数据以及与其相关的质控报告。
![SRA数据上传STEP BY STEP](https://www.yanyin.tech/cms/manage/file/9915151a76c84e3b83a8d72e1a5824c1)
做过生信的旁友们多多少少也从上边下过数据、练过手或者灌过水,具体数据下载使用方法如下:http://www.shengxin.ren/article/16。
与此同时,做实验的旁友相对就比较头痛,发文章时必须要将手上的SRA数据上传到该数据库。面对浩如烟海但是坑洼不断的各类教程,单是扫一眼就已经很头痛了。
为此我专门请教了一个趟过混水的做实验的旁友(其实是憋不出稿强行拉他来帮忙=。=),采用湿实验旁友最容易接受的形式,来一步步地教大家将测序数据上传至SRA,避免踩坑。
首先进入NCBI主页,登录自己的账号。(没有账号的话可以在https://www.ncbi.nlm.nih.gov/account/先进行申请)
然后将页面拉至最下方,找到”submit data”按钮,点击
来到submit data的开始页面
在Quick start复选框中选择SRA。
进入SRA上传主页时选择”New submission”
如果数据量较大,请注意下方的“Options to preload data”选项,常用FTP的方式上传。根据提示可以将自己的数据预上传至SRA,为接下来的上传做好准备。文件可以使用gzip或是bzip2压缩,或打包至tarball。请一定不要使用zip!是否打包或压缩文件并不要求。
进入上传页面后,填写信息(打星号的都必须填写,注意邮箱地址至少要有一个是学术机构的邮箱)
点击continue,进入下一步,填写General Information。此处注意,若此前并未就此课题在NCBI上申请BioProject号或BioSample号的话,此处两个选项请都选No。若有申请,请选择Yes并填写BioProject号。数据释放日期请选择随上传流程立即释放。点击continue继续。
填写project information,其中Project title填写一个简短的标题,可以是短语或短句。Public description填写一段话来描写研究目的与关联性。选择研究的相关领域。若你的数据是一项大研究的一部分,红框部分请选择Yes,否则请选择No。点击continue继续。
选择样品的类型。点击continue继续
接下来,重头戏来了,开始填写样本信息,我们选择使用SRA提供的EXCEL模板来填写(如图红框选项)
打开表格,绿色的列是必须要填的,黄色的列是可选填区域。鼠标移至列名右上角的红色三角处可以查看说明。
若是在完成表格后上传时遇到错误,系统报错说行间重复,可以自己在表格中添一列”replicate”,并在每一行添加不同的数字以此来区分每一行。有多少种样品就填写多少行,样品的重复暂时不用考虑,不需填写。
填写完毕后另存为TSV格式,在网页选择文件上传。点击continue继续。
(P.S. 若上传样本超过1000条,需要分两次上传至SRA,使用同一个BioProject reference即可。每个样品的名称必须是明确有意义的并且在你的账号中是唯一的!请不要用序列文件的名字命名你的样品名称。)
接下来需要填写metadata。SRA metadata 描述的是测序技术方面的内容:测序文库是怎样的,制备时的技术细节以及数据文件的对应关系。
如下图。一个课题的SRA数据可以存储在不同批次的上传文件中。而一个样品可以被不同的课题或不同批次的上传同时使用。
我们依然选择使用SRA提供的EXCEL模板来填写(如图红框选项)
表格第一页 ”Contact Info and Instructions” 是表格的整体描述与要求。在填表前大家可以看一看。
表格第二页 ” SRA_data” 是正式的内容页面。鼠标移至列名右上角的红色三角处可以查看说明。若在此前我们没有申请过BioProject ,那么第一列的BioProject_accession可以不填。
SRA metadata的表格以”sample+replicate number + library + sequencing strategy + layout + instrument model” 的形式来表示单独的一个实验。每一个实验都必须有一个唯一的library_ID,这个ID可以简短但是必须明了,就像你在实验室里使用的ID。
每一列sample name都必须是前一张attributes表中存在的。Replicate数据不可置于一行,要分两行写,描述清楚,置于一行的话会被默认为paired-end测序。反之,paired-end测序数据必须置于一行填写。
表格填写完上传完需要另存为TSV格式。(再次强调:每个实验分组仅仅只能填写一行!当文库真的完全一致时(相同的sample + library + strategy + layout + instrument model组合), 所有文件名必须置于一行,只需要在该行后半部分依次输入文件名即可。双端测序文件名必须列于一行!)
接下来就是最后一步,文件上传!若此前你已经预上传了数据文件,那么直接点击上传选项继续就好。你的文件会开始上传。
最后,SRA会向您的邮箱发送确认邮件,附带BioProject_accession以及BioS ample_accesion。同时overview页面会显示您上传数据的大致情况,至此,数据上传大功告成!
终于可以继续
参考网站:
1.Making Submission in SRA Submission Portal
https://www.ncbi.nlm.nih.gov/sra/docs/submitportal/
2.Submit your project and biological samples
https://www.ncbi.nlm.nih.gov/sra/docs/submitbio/
3.SRA Metadata and Submission Overview
https://www.ncbi.nlm.nih.gov/sra/docs/submitmeta/
4.SRA File Upload
参考网址https://www.ncbi.nlm.nih.gov/sra/docs/submitfiles/
PS: SRA文件上传的方法除FTP外,还有一些辅助软件,如Aspera。其中包括一个允许脚本数据传输的命令行工具(ascp),对生信用户非常友好。
大家觉得不过瘾可以扫码看视频哦
通过本课程将掌握基因组,转录组,微生物多样性三种sra数据的上传流程。