SRA数据上传STEP BY STEP-行业观点-衍因科研协作平台

SRA数据上传STEP BY STEP

admin 165 2025-01-28 13:25:43 编辑

SRA (Sequence Read Archive) 是NCBI上常用的一个数据库。它接受通过二代测序技术产生的遗传学数据以及与其相关的质控报告。

做过生信的旁友们多多少少也从上边下过数据、练过手或者灌过水，具体数据下载使用方法如下：http://www.shengxin.ren/article/16。

与此同时，做实验的旁友相对就比较头痛，发文章时必须要将手上的SRA数据上传到该数据库。面对浩如烟海但是坑洼不断的各类教程，单是扫一眼就已经很头痛了。

为此我专门请教了一个趟过混水的做实验的旁友（其实是憋不出稿强行拉他来帮忙=。=），采用湿实验旁友最容易接受的形式，来一步步地教大家将测序数据上传至SRA，避免踩坑。

首先进入NCBI主页，登录自己的账号。（没有账号的话可以在https://www.ncbi.nlm.nih.gov/account/先进行申请）

然后将页面拉至最下方，找到”submit data”按钮，点击

来到submit data的开始页面

在Quick start复选框中选择SRA。

进入SRA上传主页时选择”New submission”

如果数据量较大，请注意下方的“Options to preload data”选项，常用FTP的方式上传。根据提示可以将自己的数据预上传至SRA，为接下来的上传做好准备。文件可以使用gzip或是bzip2压缩，或打包至tarball。请一定不要使用zip!是否打包或压缩文件并不要求。

进入上传页面后，填写信息（打星号的都必须填写，注意邮箱地址至少要有一个是学术机构的邮箱）

点击continue，进入下一步，填写General Information。此处注意，若此前并未就此课题在NCBI上申请BioProject号或BioSample号的话，此处两个选项请都选No。若有申请，请选择Yes并填写BioProject号。数据释放日期请选择随上传流程立即释放。点击continue继续。

填写project information，其中Project title填写一个简短的标题，可以是短语或短句。Public description填写一段话来描写研究目的与关联性。选择研究的相关领域。若你的数据是一项大研究的一部分，红框部分请选择Yes，否则请选择No。点击continue继续。

选择样品的类型。点击continue继续

接下来，重头戏来了，开始填写样本信息，我们选择使用SRA提供的EXCEL模板来填写（如图红框选项）

打开表格，绿色的列是必须要填的，黄色的列是可选填区域。鼠标移至列名右上角的红色三角处可以查看说明。

若是在完成表格后上传时遇到错误，系统报错说行间重复，可以自己在表格中添一列”replicate”，并在每一行添加不同的数字以此来区分每一行。有多少种样品就填写多少行，样品的重复暂时不用考虑，不需填写。

填写完毕后另存为TSV格式，在网页选择文件上传。点击continue继续。

（P.S. 若上传样本超过1000条，需要分两次上传至SRA，使用同一个BioProject reference即可。每个样品的名称必须是明确有意义的并且在你的账号中是唯一的！请不要用序列文件的名字命名你的样品名称。）

接下来需要填写metadata。SRA metadata 描述的是测序技术方面的内容：测序文库是怎样的，制备时的技术细节以及数据文件的对应关系。

如下图。一个课题的SRA数据可以存储在不同批次的上传文件中。而一个样品可以被不同的课题或不同批次的上传同时使用。

我们依然选择使用SRA提供的EXCEL模板来填写（如图红框选项）

表格页 ”Contact Info and Instructions” 是表格的整体描述与要求。在填表前大家可以看一看。

表格第二页 ” SRA_data” 是正式的内容页面。鼠标移至列名右上角的红色三角处可以查看说明。若在此前我们没有申请过BioProject ,那么列的BioProject_accession可以不填。

SRA metadata的表格以”sample+replicate number + library + sequencing strategy + layout + instrument model” 的形式来表示单独的一个实验。每一个实验都必须有一个唯一的library_ID，这个ID可以简短但是必须明了，就像你在实验室里使用的ID。

每一列sample name都必须是前一张attributes表中存在的。Replicate数据不可置于一行，要分两行写，描述清楚，置于一行的话会被默认为paired-end测序。反之，paired-end测序数据必须置于一行填写。

表格填写完上传完需要另存为TSV格式。（再次强调：每个实验分组仅仅只能填写一行！当文库真的完全一致时（相同的sample + library + strategy + layout + instrument model组合), 所有文件名必须置于一行，只需要在该行后半部分依次输入文件名即可。双端测序文件名必须列于一行！）

接下来就是最后一步，文件上传！若此前你已经预上传了数据文件，那么直接点击上传选项继续就好。你的文件会开始上传。

最后，SRA会向您的邮箱发送确认邮件，附带BioProject_accession以及BioS ample_accesion。同时overview页面会显示您上传数据的大致情况，至此，数据上传大功告成！

终于可以继续

参考网站：

1.Making Submission in SRA Submission Portal

https://www.ncbi.nlm.nih.gov/sra/docs/submitportal/

2.Submit your project and biological samples

https://www.ncbi.nlm.nih.gov/sra/docs/submitbio/

3.SRA Metadata and Submission Overview

https://www.ncbi.nlm.nih.gov/sra/docs/submitmeta/

4.SRA File Upload

参考网址https://www.ncbi.nlm.nih.gov/sra/docs/submitfiles/

PS: SRA文件上传的方法除FTP外，还有一些辅助软件，如Aspera。其中包括一个允许脚本数据传输的命令行工具（ascp），对生信用户非常友好。

大家觉得不过瘾可以扫码看视频哦

通过本课程将掌握基因组，转录组，微生物多样性三种sra数据的上传流程。

NC重磅！CellChat：单细胞通讯分析工具！

805 2024-12-18

SRA数据上传STEP BY STEP

SMART蛋白质结构域注释的20年(附用法）

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

单酶切和双酶切的区别，了解这两者的特点

如何通过智能科研工具提升研究效率与数据分析助力科研创新

SMART蛋白质结构域注释的20年(附用法）

深度学习与生物医药AI大模型如何重塑药物研发的未来？

如何在NCBI上查找基因的CDS序列

最新文章

分子生物学名词解释核心概念与蛋白质组学解读

分子生物学实验技术：体系分类、优化策略与应用案例

分子生物学试剂：保存条件、失效判断与应用指南

《医学分子生物学杂志》学术前沿与投稿指南

分子生物学实验的核心技术与应用

现代分子生物学的主要研究领域

分子生物学技术的主要分类与应用场景

生物化学与分子生物学的学科概述与核心研究内容

分子生物学软件的核心功能与优势

分子生物学工具：核心功能、应用场景与发展趋势解析

热门标签